13.计算题分析

1.贝叶斯

1.1. 修车类型

设某公路上经过的货车与客车的数量之比为2:1，货车中途停车修理的概率为0.02，客车为0.01，今有一辆汽车中途停车修理，求该汽车是货车的概率？

0.013
0.80
0.40
0.60

条件分析：

符号

说明

值

$P(B)$

条件事件，停车修理。

全概率公式： $P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2)$

$P(A_1)$

判断事件，车辆是货车。

2/3

$P(A_2)$

判断事件，车辆是客车。

1/2

$P(B \mid A_1)$

已知车是货车，停车修理概率。

0.02

$P(B \mid A_2)$

已知车是客车，停车修理的概率。

0.01

求解： $P(A_1 \mid B)$ 的概率：已知停车修理，该车是货车的概率。

$P(A_1 \mid B) = \frac{P(B \mid A_1) \times P(A_1)}{P(B)}$

此处 $P(B)$ 的求解需要使用全概率公式，基本条件：
1. 事件 $A_1, A_2$ 在当前题目中互斥，且 $A_1 \cup A_2 = \Omega$
2. 事件 $A_1, A_2$ 是样本空间 $\Omega$ 的一部分。
分母最终结果为 $P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2) = 0.02 \times \frac{2}{3} + 0.01 \times \frac{1}{3} = 0.05 \times \frac{1}{3}$
分子最终结果： $P(B \mid A_1) \times P(A_1) = 0.02 \times \frac{2}{3} = 0.04 \times \frac{1}{3}$
最后结果： $P(A_1|B) = (0.04 \times \frac{1}{3}) / (0.05 \times \frac{1}{3}) = 0.8$

1.2. 头等舱男女

观察某航空公司男女搭机的行为：假设搭机中65%是女性、剩余是男性。女性搭头等舱的概率是30%，而男性搭头等舱的概率是75%。请问头等舱的人中，有多少概率是男生？

0.4626
0.2651
0.5738
0.7375

条件分析：

符号

说明

值

$P(B)$

搭头等舱的概率。

$P(A_1)$

判断事件，女性。

0.65

$P(A_2)$

判断事件，男性。

0.35

$P(B \mid A_1)$

已知是女性，搭头等舱的概率。

0.3

$P(B \mid A_2)$

已知是男性，搭头等舱的概率。

0.75

求解： $P(A_2 \mid B)$ 的概率：已知搭载头等舱，该人是男性的概率。

$P(A_2 \mid B) = \frac{P(B \mid A_2) \times P(A_2)}{P(B)}$

全概率公式：

$P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2)$

求解步骤：

先使用全概率公式 $P(B)$ 求分母: $P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2) = 0.65 \times 0.3 + 0.35 \times 0.75 = 0.195 + 0.2625 = 0.4575$
分子求解结果： $P(B \mid A_2) \times P(A_2) = 0.35 \times 0.75 = 0.2625$
最后结果： $0.2625 \div 0.4575 \approx 0.5738$

1.3. 电脑购买

通过对某地区的部分人群进行调查，获得了他们对于的age、income、是否为student、Credit_rating以及是否购买某品牌的电脑的信息进行了记录。训练样例如表1，通过训练样例得到表2，表3为根据表2的统计数据，得到的在分类为YES和NO的条件下各个属性值取得的概率以及YES和NO在所有样例中取值的概率：

1. 表2是由表1得到的，表2中的M和N值分别是？

14和5
5和3
9和0
9和5

分析：贝叶斯分类根据图中的数据得到表2，表2不包含概率，直接使用计数处理。
M为Buy_computer = YES的数量，直接统计为：9。
N为Buy_computer = NO，条件为age=Youth的数量，直接统计为：0（Youth全部是YES）。

2. 表3是由表2得到的，表3中的M和N值分别是？

9/14和0
1和1/5
9/14和1/5
0和1

分析：图3是概率图，直接计算：
M为Buy_computer = YES的概率， $9 \div 14 = 9/14$ ，14是总数。
N为Buy_computer = NO，条件为age=Youth的概率（即年轻人买电脑的概率）， $0 \div 5 = 0$ 。

3. 现有测试样例：x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent)，则 $P(YES \mid x)$ 的值为：

0.0132 / P(x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent))
0.0132
0.067
0.568

贝叶斯公式：

$P(YES \mid x) = \frac{P(x \mid YES) \times P(YES)}{P(x)}$

分子求：
1. $P(x \mid YES) = \frac{1}{3} \times \frac{5}{9} \times \frac{1}{3} \times \frac{1}{3}$
2. $P(YES) = \frac{9}{14}$
3. 两者相乘： $\frac{5}{243} \times \frac{9}{14} = \frac{5}{378} \approx 0.0132$
分母为 $P(x)$
最终结果为 $0.0132 / P(x) = 0.0132 / P(x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent))$

4. 现有测试样例：x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent)，则 $P(NO \mid x)$ 的值为：

0
0.23
0.68
0.268

因为age = Youth为0，所以分子计算后结果为0。

1.4. 性别预测

测试数据：

Magazine Promotion = Yes
Watch Promotion = Yes
Life Insurance Promotion = No
Credit Card Insurance = No
Sex = ?

整理新表格

事件

说明

P(A)

Sex = Male

P(B)

Sex = Female

P(E)

Magazine Promotion=Yes Watch Promotion=Yes Life Insurance Promotion=No Credit Card Insurance=No

男性

事件Sex = Male为 $A$

求解 $P(A|E) = \frac{P(E|A) \times P(A)}{P(E)}$

$P(A)$ ：求解Sex = Male的概率，直接计算：6/10 = 0.6
$P(E|A)$ ：条件同时满足的概率，直接计算： $\frac{4}{6} \times \frac{2}{6} \times \frac{4}{6} \times \frac{4}{6} = \frac{8}{81}$
最终结果： $(\frac{8}{81} \times 0.6) / P(E) \approx \frac{0.0593}{P(E)}$

女性

事件Sex = Female为 $B$

求解 $P(B|E) = \frac{P(E|B) \times P(B)}{P(E)}$

$P(B)$ ：求解Sex = Female的概率，直接计算：4/10 = 0.4
$P(E|B)$ ：条件同时满足的概率，直接计算： $\frac{3}{4} \times \frac{2}{4} \times \frac{1}{4} \times \frac{3}{4} = \frac{9}{128}$
最终结果： $(\frac{9}{128} \times 0.4) / P(E) \approx \frac{0.0281}{P(E)}$

由此可见，测试数据中男性的概率更大。

1.5. 疾病诊断（多分类）

测试数据：

Sore Throat = No
Fever = No
Swollen Glands = Yes
Congestion = Yes
Headache = Yes

整理新表格：

ST = Strep Throat
A = Allergy
C = Cold

事件

说明

P(A)

Diagnosis = Strep Throat

P(B)

Diagnosis = Allergy

P(C)

Diagnosis = Cold

P(E)

Sore Throat=No Fever=No Swollen Glands=Yes Congestion=Yes Headache=Yes

Strep Throat

事件Diagnosis = Strep Throat为 $A$ 求解 $P(A|E) = \frac{P(E|A) \times P(A)}{P(E)}$
$P(A)$ ：求解Diagnosis = Strep Throat的概率，直接计算：3/10 = 0.3
$P(E|A)$ ：条件同时满足的概率，直接计算： $\frac{1}{3} \times \frac{2}{3} \times 1 \times \frac{1}{3} \times \frac{1}{3} = \frac{2}{81}$
最终结果： $(\frac{2}{81} \times 0.3) / P(E) \approx \frac{0.0074}{P(E)}$

Allergy

事件Diagnosis = Allergy为 $B$ 求解 $P(B|E) = \frac{P(E|B) \times P(B)}{P(E)}$
$P(B)$ ：求解Diagnosis = Allergy的概率，直接计算：3/10 = 0.3
$P(E|B)$ ：条件同时满足的概率，直接计算： $\frac{2}{3} \times 1 \times 0 \times 1 \times \frac{2}{3} = 0$
最终结果：0

Cold

事件Diagnosis = Cold为 $C$ 求解 $P(C|E) = \frac{P(E|C) \times P(C)}{P(E)}$
$P(C)$ ：求解Diagnosis = Code的概率，直接计算：4/10 = 0.4
$P(E|C)$ ：条件同时满足的概率，直接计算： $\frac{2}{4} \times 0 \times 1 \times 1 \times \frac{1}{2} = 0$
最终结果：0

2.Gini计算

2.1. Gini计算

给定以下的便利店选点数据集，并采用CART的分类树算法构建分类树（目标字段为最后一个字段）时，请回答以下题目：

当左子树是道路距离<=30，右子树是道路距离31~40或>40时，请计算此树的Gini值为何？

0.335
0.247
0.249
0.394
计算方法：道路距离
道路距离
Yes
No
总
<=30
2
3
5
31~40, >40
7
2
9
左Gini： $1 - (\frac{2}{5})^2 - (\frac{3}{5})^2 = 0.48$ 左占比： $\frac{5}{5 + 9} = \frac{5}{14}$ 右Gini： $1 - (\frac{7}{9})^2 - (\frac{2}{9})^2 \approx 0.34568$ 右占比： $\frac{9}{5 + 9} = \frac{9}{14}$ 最终Gini: $0.48 \times \frac{5}{14} + 0.34568 \times \frac{9}{14} \approx 0.17143 + 0.22222 \approx 0.394$

当左子树是人口密度=中，右子树是人口密度=高或人口密度=低时，请计此树的Gini值为何？

0.378
0.398
0.102
0.458
计算方法：人口密度
人口密度
Yes
No
总
中
4
2
6
高、低
5
3
8
左Gini： $1 - (\frac{4}{6})^2 - (\frac{2}{6})^2 \approx 0.4444$ 左占比： $\frac{6}{6 + 8} = \frac{6}{14}$ 右Gini： $1 - (\frac{5}{8})^2 - (\frac{3}{8})^2 = 0.46875$ 右占比： $\frac{8}{6 + 8} = \frac{8}{14}$ 最终Gini： $0.4444 \times \frac{6}{14} + 0.46875 \times \frac{8}{14} \approx 0.19047 + 0.26786 \approx 0.458$

当子树是区域类别=住宅区，右子树是区域类别=商业区时，请计算此树的Gini值为何？

0.457
0.367
0.459
0.347
计算方法：区域类型
区域类型
Yes
No
总
住宅区
3
4
7
商业区
6
1
7
左Gini： $1 - (\frac{3}{7})^2 - (\frac{4}{7})^2 \approx 0.48980$
左占比： $\frac{7}{7 + 7} = \frac{7}{14}$
右Gini： $1 - (\frac{6}{7})^2 - (\frac{1}{7})^2 \approx 0.24490$
右占比： $\frac{7}{7 + 7} = \frac{7}{14}$
最终Gini：
$0.48980 \times \frac{7}{14} + 0.24490 \times \frac{7}{14} \approx 0.2449 + 0.12245 \approx 0.367$

当左子树是捷运车站=有，右子树是捷运车站=没有时，请计算此树的Gini值为何？

0.398
0.489
0.429
0.217
计算方法：捷运车站
捷运车站
Yes
No
总
有
6
2
8
没
3
3
6
左Gini： $1 - (\frac{6}{8})^2 - (\frac{2}{8})^2 = 0.375$
左占比： $\frac{8}{8 + 6} = \frac{8}{14}$
右Gini： $1 - (\frac{3}{6})^2 - (\frac{3}{6})^2 = 0.5$
右占比： $\frac{6}{8 + 6} = \frac{6}{14}$
最终Gini：
$0.375 \times \frac{8}{14} + 0.5 \times \frac{6}{14} \approx 0.21429 + 0.21429 \approx 0.429$

3.混淆矩阵

3.1. 文本评估

正确分词（实际）

伊拉克

已

连续

第四天

将

原油

倾入

波斯湾

分词结果（预测）

伊拉克

已

连续

第四天

将

原

油

倾入

波斯

湾

正确

上述混淆矩阵

实际\预测

真

假

真

TP = 6

FN = 2

假

FP = 4

查准率（Precision）：总共预测10个词，正确了6个，0.6，正确个数占预测总数的真。
查全率（Recall）：实际8个词，正确了6个，0.75，正确个数占实际总数的真。
$F_1 \approx 0.67$

3.2. 多分类

计算A的混淆矩阵：
实际\预测
真
假
真
2
2
假
0
-
查准率：总共预测2个词，正确了2个， $P = 1.0$
查全率：实际4个词，正确了2个， $R = 0.5$
$F_1 \approx 0.67$
计算B的混淆矩阵：
实际\预测
真
假
真
2
1
假
2
-
查准率：总共预测4个词，正确了2个， $P = 0.5$
查全率：实际3个词，正确了2个， $R = 0.66$
$F_1 \approx 0.57625$
计算C的混淆矩阵：
实际\预测
真
假
真
1
1
假
2
-
查准率：总共预测3个词，正确1个， $P = 0.33$
查全率：实际2个词，正确了1个， $R = 0.5$
$F_1 \approx 0.39759$

根据上述结果计算：

微平均 Micro F1（合并混淆矩阵）
实际\预测
真
假
真
5
4
假
4
-
查准率：总共预测9个词，正确5个， $P = 0.56$
查全率：实际9个词，正确5个， $P = 0.56$
$F_1 \approx 0.56$
宏平均 Macro F1：多个F相加取平均
$F_1 = \frac{0.6667 + 0.57265 + 0.39759}{3} = 0.546$
Weight F1：带上权重直接求和（注此处不需再除以3）
$F_1 = \frac{4}{9} \times 0.6667 + \frac{3}{9} \times 0.57265 + \frac{2}{9} \times 0.39759 = 0.58$

4.频繁项集

4.1. 基本计算

考虑下面的频繁3-项的集合：

{1,2,3}
{1,2,4}
{1,2,5}
{1,3,4}
{1,3,5}
{1,4,5}
{2,3,4}
{2,3,5}
{3,4,5}

假定数据集中只有5个项，采用合并策略，由候选产生过程中得到的4-项集不包括：

1,2,3,4
1,2,3,5
1,2,4,5
1,3,4,5

验证每个结果如下：

选项

根据结果提取所需的三项集

1,2,3,4

123, 124, 234, 134

1,2,3,5

123, 125, 235, 135

1,2,4,5

125, 125, 245（该项不存在于于3-项集）, 145

1,3,4,5

134, 135, 345, 145

4.2. Apriori算法

根据Apriori算法回答下边问题：

TID

项集

面包、牛奶

面包、尿布、啤酒、鸡蛋

牛奶、尿布、啤酒、可乐

面包、牛奶、尿布、啤酒

面包、牛奶、尿布、可乐

利用Apriori算法计算频繁项集可以有效降低计算频繁项集的时间复杂度，上述购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是

啤酒、尿布
啤酒、面包
面包、尿布
啤酒、牛奶

详细解析，根据频繁项集执行计算

用户

面包 A

牛奶 B

尿布 C

啤酒 D

鸡蛋 E

可乐 F

支持度 >= 3

从1-项集开始计算：

1项：
- 项集：{A,B,C,D,E,F}
- 剪枝移除得到频繁项集：{A,B,C,D}
2项：
- 项集：{(A,B), (B,C), (C,D), (A,C), (A,D), (B,D)}
- 剪枝移除得到频繁项集：{(A,B), (B,C), (C,D), (A,C)}

验证结果

{C, D}
{A, D} - 剪枝移除
{A, C}
{B, D} - 剪枝移除

4.3. 频繁闭项集

下表是一个购物篮，假定支持度阈值为40%，其中（）是频繁闭项集

abc
abcd
bce
acde
de

详细解析：

答案

项集

直接超集

间接超集

abc = 40%

abcd = 20%

ad = 40%

acd = 40%

abcd, acde

cd = 40%

acd = 40%, cde = 20%

abcd, acde

de = 40%

cde = 20%

acde

根据统计结果可以知道，只有A和D满足频繁闭项集的条件，B和C中acd = 40%使得这两个项集不可能成为频繁闭项集，直接超集的占比和当前频繁项集的占比一样则表示该集合不是频繁闭项集，如结果中ad和acd都是40%，那么这种场景下，ad就不是频繁闭项集。

5.SVM

5.1.分类面方程

有两个样本点，第一个点为正样本，特征向量是(0, -1)，第二个点为负样本，它的特征向量是(2,3)，从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是：

2x + y = 4
x + 2y = 5
x + 2y = 3
以上都不对

简单算法：SVM要找到间隔最大的分类平面，这里即求解两点(0, -1)，(2, 3)的垂直平分线条，原始斜率为：

$k = \frac{y_1 - y_2}{x_1 - x_2} = (-1 - 3) / (0 - 2) = 2$

新的斜率（两条支线的斜率乘积为-1）

$k = -1 / 2 = \frac{1}{2}$

中点坐标：

$(\frac{x_1 + x_2}{2}, \frac{y_1 + y_2}{2}) = (1, 1)$

代入验证

SVM原理：一个是负样本，一个是正样本。参考：https://www.nowcoder.com/questionTerminal/104e95c6a13d464a86eb6b657cc545c0

6.线性回归

6.1. 回归方程

X（年资：单位年）

Y（薪资：单位K）

请计算线性回归（Linear Regression）方程式 $Y = \alpha + \beta X$ 中 $\alpha$ 的值：

14.5
32.0
23.6
4.9

简单线性回归中计算公式：

$Y = \alpha + \beta X$ $\beta = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}$ $\alpha = \bar{y} - \beta \bar{x}$

计算 $\bar{x}$ 和 $\bar{y}$ ： $\bar{x} = (3 + 8 + ... + 16) / 10 = 9.1$ $\bar{y} = (30 + 57 + ... + 83) / 10 = 55.4$
计算 $\beta$ : $\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) = \frac{(3 - 9.1)(30 - 55.4) + .... + (16 - 9.1)(83 - 55.4)}{(3 - 9.1)^2 + ... + (16 - 9.1)^2} \approx 3.5$
计算 $\alpha$ ： $\alpha = \bar{y} - \beta \bar{x} = 55.4 - 9.1 \times 3.5 \approx 23.6$

7.置信度/支持度

支持度（Support）：同时包含A和B的事务所占有事务的比例：
$Support = P (A \cap B)$
置信度（Conficence）：表示使用包含A事务中同时包含B的比例
$Confidence = P (A \cap B) / P(A)$
Lift提升度：“包含A事务中同时包含B的比例”和“包含B事务中比例”的比值
$Lift = P (A \cap B) / P(A) / P(B)$

7.1.基本计算

1. 有一条关联规则X -> Y，该规则的支持度（Support）为25%，置信度（Confidence）为50%，单独出现X的概率为50%、单独出现Y的概率为25%，则该规则的提升度：

该题中：

$P(A \cap B)$ = 0.25
$P(A \cap B) / P(A)$ = 0.5
$P(A) = 0.5, P(B) = 0.25$

所以提升度为 $P(A \cap B) / P(A) / P(B) = 0.5 / 0.25 = 2.0$

2. 130笔交易数据中，购买面包的交易有80笔，买面包同时也买牛奶的笔数有64笔，求算购买面包的人是否也购买牛奶的置信度（Confidence）为：

85.5%
50%
75.3%
80.0%

该题中：

$P(A \cap B) = \frac{64}{130}$
$P(A) = \frac{80}{130}$
$Confidence = P(A \cap B) / P(A) = \frac{64}{130} \div \frac{80}{130} = 0.8$

7.2.表格型计算范例

事务ID

购买项集

A,B,C

A,C

A,D

B,E,F

计算A -> C的各个参数：

支持度：
$A = \frac{3}{4} = 0.75, C = \frac{1}{2} = 0.5$ $Support = P (A \cap B) = 0.5 = 50\%$
置信度：
$P ( A \cap B ) = 0.5, P (A) = 0.75$ $Confidence = P ( A \cap B ) / P(A) = 0.5 / 0.75 = 0.66 = 66\%$ $Confidence = Support / P(A)$
运算细节： $0.5 / 0.75 = \frac{1}{2} \times \frac{4}{3} = \frac{2}{3} \approx 0.66$
提升度：
$P ( A \cap B ) = 0.5$ $P (A) = 0.75$ $P (B) = 0.5$ $Lift = P( A \cap B) / P(A) / P(B) = 0.5 / 0.75 / 0.5 = 4/3 = 1.33 = 133\%$ $Lift = Conficence / P(B)$

8.相关系数计算

给定五组观察值(x,y)分别为：(6,6), (11,9), (15,12), (21,17), (27,16)，求解相关系数。

$r = \frac{\sum\limits_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum\limits_{i=1}^n (X_i - \bar{X})^2}\sqrt{\sum\limits_{i=1}^n (Y_i - \bar{Y})^2}}$

$\bar{X}$ = (6 + 11 + 15 + 21 + 27) / 5 = 16
$\bar{Y}$ = (6 + 9 + 12 + 17 + 16) / 5 = 12

求解每一项

项

i=1

i=2

i=3

i=4

i=5

求和

$X_i - \bar{X}$

-10

-5

-1

$Y_i - \bar{Y}$

-6

-3

$(X_i - \bar{X})(Y_i - \bar{Y})$

$\sum = 144$ （分子）

$(X_i - \bar{X})^2$

100

121

$\sum = 272$

$(Y_i - \bar{Y})^2$

$\sum = 86$

分母求解：

$result = \sqrt{(X_i - \bar{X})^2} \times \sqrt{(Y_i - \bar{Y})^2} = \sqrt{272} \times \sqrt{86} \approx 16.49 \times 9.27 = 152.8623$

最终结果：

$final = 144 / 152.8623 \approx 0.9420$

程序计算结果：

import pandas as pd
import math

# 函数：计算相关系数
def calc_corr(a, b):
    a_avg = sum(a)/len(a)
    b_avg = sum(b)/len(b)

    # 计算分子，协方差————按照协方差公式，本来要除以n的，由于在相关系数中上下同时约去了n，于是可以不除以n
    cov_ab = sum([(x - a_avg)*(y - b_avg) for x,y in zip(a, b)])

    # 计算分母，方差乘积————方差本来也要除以n，在相关系数中上下同时约去了n，于是可以不除以n
    sq = math.sqrt(sum([(x - a_avg)**2 for x in a]))*math.sqrt(sum([(x - b_avg)**2 for x in b]))
    corr_factor = cov_ab/sq
    return corr_factor

a=[6,11,15,21,27]
b=[6,9,12,17,16]
b_s = pd.Series(b)
a_s = pd.Series(a)
cor1 = a_s.corr(b_s)        # 直接使用Pandas计算

cor2 = calc_corr(a,b)       # 自定义函数计算

print(cor1, cor2)

结果：

0.9415184057386946 0.9415184057386946

最后更新于3年前

hashtag1.贝叶斯

hashtag1.1. 修车类型

hashtag1.2. 头等舱男女

hashtag1.3. 电脑购买

hashtag1.4. 性别预测

hashtag1.5. 疾病诊断（多分类）

hashtag2.Gini计算

hashtag2.1. Gini计算

hashtag3.混淆矩阵

hashtag3.1. 文本评估

hashtag3.2. 多分类

hashtag4.频繁项集

hashtag4.1. 基本计算

hashtag4.2. Apriori算法

hashtag4.3. 频繁闭项集

hashtag5.SVM

hashtag5.1.分类面方程

hashtag6.线性回归

hashtag6.1. 回归方程

hashtag7.置信度/支持度

hashtag7.1.基本计算

hashtag7.2.表格型计算范例

hashtag8.相关系数计算