13.计算题分析

1.贝叶斯

1.1. 修车类型

    设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率?

    条件分析:

符号
说明

P(B)P(B)

条件事件,停车修理。

全概率公式:P(BA1)P(A1)+P(BA2)P(A2)P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2)

P(A1)P(A_1)

判断事件,车辆是货车。

2/3

P(A2)P(A_2)

判断事件,车辆是客车。

1/2

P(BA1)P(B \mid A_1)

已知车是货车,停车修理概率。

0.02

P(BA2)P(B \mid A_2)

已知车是客车,停车修理的概率。

0.01

    求解:P(A1B)P(A_1 \mid B)的概率:已知停车修理,该车是货车的概率。

P(A1B)=P(BA1)×P(A1)P(B)P(A_1 \mid B) = \frac{P(B \mid A_1) \times P(A_1)}{P(B)}

  1. 此处P(B)P(B)的求解需要使用全概率公式,基本条件:

    1. 事件A1,A2A_1, A_2在当前题目中互斥,且A1A2=ΩA_1 \cup A_2 = \Omega

    2. 事件A1,A2A_1, A_2是样本空间Ω\Omega的一部分。

  2. 分母最终结果为 P(B)=P(BA1)P(A1)+P(BA2)P(A2)=0.02×23+0.01×13=0.05×13P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2) = 0.02 \times \frac{2}{3} + 0.01 \times \frac{1}{3} = 0.05 \times \frac{1}{3}

  3. 分子最终结果: P(BA1)×P(A1)=0.02×23=0.04×13P(B \mid A_1) \times P(A_1) = 0.02 \times \frac{2}{3} = 0.04 \times \frac{1}{3}

  4. 最后结果:P(A1B)=(0.04×13)/(0.05×13)=0.8P(A_1|B) = (0.04 \times \frac{1}{3}) / (0.05 \times \frac{1}{3}) = 0.8

1.2. 头等舱男女

    观察某航空公司男女搭机的行为:假设搭机中65%是女性、剩余是男性。女性搭头等舱的概率是30%,而男性搭头等舱的概率是75%。请问头等舱的人中,有多少概率是男生?

    条件分析:

符号
说明

P(B)P(B)

搭头等舱的概率。

P(A1)P(A_1)

判断事件,女性。

0.65

P(A2)P(A_2)

判断事件,男性。

0.35

P(BA1)P(B \mid A_1)

已知是女性,搭头等舱的概率。

0.3

P(BA2)P(B \mid A_2)

已知是男性,搭头等舱的概率。

0.75

    求解:P(A2B)P(A_2 \mid B)的概率:已知搭载头等舱,该人是男性的概率。

P(A2B)=P(BA2)×P(A2)P(B)P(A_2 \mid B) = \frac{P(B \mid A_2) \times P(A_2)}{P(B)}

    全概率公式:

P(B)=P(BA1)P(A1)+P(BA2)P(A2)P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2)

    求解步骤:

  1. 先使用全概率公式P(B)P(B)分母: P(B)=P(BA1)P(A1)+P(BA2)P(A2)=0.65×0.3+0.35×0.75=0.195+0.2625=0.4575P(B) = P(B \mid A_1)P(A_1) + P(B \mid A_2)P(A_2) = 0.65 \times 0.3 + 0.35 \times 0.75 = 0.195 + 0.2625 = 0.4575

  2. 分子求解结果: P(BA2)×P(A2)=0.35×0.75=0.2625P(B \mid A_2) \times P(A_2) = 0.35 \times 0.75 = 0.2625

  3. 最后结果: 0.2625÷0.45750.57380.2625 \div 0.4575 \approx 0.5738

1.3. 电脑购买

    通过对某地区的部分人群进行调查,获得了他们对于的ageincome、是否为studentCredit_rating以及是否购买某品牌的电脑的信息进行了记录。训练样例如表1,通过训练样例得到表2,表3为根据表2的统计数据,得到的在分类为YES和NO的条件下各个属性值取得的概率以及YES和NO在所有样例中取值的概率:

    1. 表2是由表1得到的,表2中的M和N值分别是?

分析:贝叶斯分类根据图中的数据得到表2,表2不包含概率,直接使用计数处理。

  1. M为Buy_computer = YES的数量,直接统计为:9。

  2. N为Buy_computer = NO,条件为age=Youth的数量,直接统计为:0(Youth全部是YES)。

    2. 表3是由表2得到的,表3中的M和N值分别是?

分析:图3是概率图,直接计算:

  1. M为Buy_computer = YES的概率,9÷14=9/149 \div 14 = 9/14,14是总数。

  2. N为Buy_computer = NO,条件为age=Youth的概率(即年轻人买电脑的概率),0÷5=00 \div 5 = 0

    3. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent),则P(YESx)P(YES \mid x)的值为:

    贝叶斯公式:

P(YESx)=P(xYES)×P(YES)P(x)P(YES \mid x) = \frac{P(x \mid YES) \times P(YES)}{P(x)}

  1. 分子求:

    1. P(xYES)=13×59×13×13P(x \mid YES) = \frac{1}{3} \times \frac{5}{9} \times \frac{1}{3} \times \frac{1}{3}

    2. P(YES)=914P(YES) = \frac{9}{14}

    3. 两者相乘:5243×914=53780.0132\frac{5}{243} \times \frac{9}{14} = \frac{5}{378} \approx 0.0132

  2. 分母为P(x)P(x)

  3. 最终结果为0.0132/P(x)=0.0132/P(x=(age=Youth,Income=Medium,Student=No,Creditrating=Excellent))0.0132 / P(x) = 0.0132 / P(x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent))

    4. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent),则P(NOx)P(NO \mid x)的值为:

因为age = Youth为0,所以分子计算后结果为0。

1.4. 性别预测

    测试数据:

  • Magazine Promotion = Yes

  • Watch Promotion = Yes

  • Life Insurance Promotion = No

  • Credit Card Insurance = No

  • Sex = ?

    整理新表格

事件
说明

P(A)

Sex = Male

P(B)

Sex = Female

P(E)

Magazine Promotion=Yes Watch Promotion=Yes Life Insurance Promotion=No Credit Card Insurance=No

    男性

  • 事件Sex = MaleAA

    求解P(AE)=P(EA)×P(A)P(E)P(A|E) = \frac{P(E|A) \times P(A)}{P(E)}

  • P(A)P(A):求解Sex = Male的概率,直接计算:6/10 = 0.6

  • P(EA)P(E|A):条件同时满足的概率,直接计算:46×26×46×46=881\frac{4}{6} \times \frac{2}{6} \times \frac{4}{6} \times \frac{4}{6} = \frac{8}{81}

  • 最终结果:(881×0.6)/P(E)0.0593P(E)(\frac{8}{81} \times 0.6) / P(E) \approx \frac{0.0593}{P(E)}

    女性

  • 事件Sex = FemaleBB

    求解P(BE)=P(EB)×P(B)P(E)P(B|E) = \frac{P(E|B) \times P(B)}{P(E)}

  • P(B)P(B):求解Sex = Female的概率,直接计算:4/10 = 0.4

  • P(EB)P(E|B):条件同时满足的概率,直接计算:34×24×14×34=9128\frac{3}{4} \times \frac{2}{4} \times \frac{1}{4} \times \frac{3}{4} = \frac{9}{128}

  • 最终结果:(9128×0.4)/P(E)0.0281P(E)(\frac{9}{128} \times 0.4) / P(E) \approx \frac{0.0281}{P(E)}

由此可见,测试数据中男性的概率更大。

1.5. 疾病诊断(多分类)

    测试数据:

  • Sore Throat = No

  • Fever = No

  • Swollen Glands = Yes

  • Congestion = Yes

  • Headache = Yes

    整理新表格:

  • ST = Strep Throat

  • A = Allergy

  • C = Cold

事件
说明

P(A)

Diagnosis = Strep Throat

P(B)

Diagnosis = Allergy

P(C)

Diagnosis = Cold

P(E)

Sore Throat=No Fever=No Swollen Glands=Yes Congestion=Yes Headache=Yes

    Strep Throat

  • 事件Diagnosis = Strep ThroatAA 求解P(AE)=P(EA)×P(A)P(E)P(A|E) = \frac{P(E|A) \times P(A)}{P(E)}

  • P(A)P(A):求解Diagnosis = Strep Throat的概率,直接计算:3/10 = 0.3

  • P(EA)P(E|A):条件同时满足的概率,直接计算:13×23×1×13×13=281\frac{1}{3} \times \frac{2}{3} \times 1 \times \frac{1}{3} \times \frac{1}{3} = \frac{2}{81}

  • 最终结果:(281×0.3)/P(E)0.0074P(E)(\frac{2}{81} \times 0.3) / P(E) \approx \frac{0.0074}{P(E)}

    Allergy

  • 事件Diagnosis = AllergyBB 求解P(BE)=P(EB)×P(B)P(E)P(B|E) = \frac{P(E|B) \times P(B)}{P(E)}

  • P(B)P(B):求解Diagnosis = Allergy的概率,直接计算:3/10 = 0.3

  • P(EB)P(E|B):条件同时满足的概率,直接计算:23×1×0×1×23=0\frac{2}{3} \times 1 \times 0 \times 1 \times \frac{2}{3} = 0

  • 最终结果:0

    Cold

  • 事件Diagnosis = ColdCC 求解P(CE)=P(EC)×P(C)P(E)P(C|E) = \frac{P(E|C) \times P(C)}{P(E)}

  • P(C)P(C):求解Diagnosis = Code的概率,直接计算:4/10 = 0.4

  • P(EC)P(E|C):条件同时满足的概率,直接计算:24×0×1×1×12=0\frac{2}{4} \times 0 \times 1 \times 1 \times \frac{1}{2} = 0

  • 最终结果:0


2.Gini计算

2.1. Gini计算

    给定以下的便利店选点数据集,并采用CART的分类树算法构建分类树(目标字段为最后一个字段)时,请回答以下题目:

  1. 当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?

  1. 当左子树是人口密度=中,右子树是人口密度=高或人口密度=低时,请计此树的Gini值为何?

  1. 当子树是区域类别=住宅区,右子树是区域类别=商业区时,请计算此树的Gini值为何?

  1. 当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?


3.混淆矩阵

3.1. 文本评估

正确分词(实际)
伊拉克
连续
第四天
原油
倾入
波斯湾

分词结果(预测)

伊拉克

连续

第四天

倾入

波斯

正确

o

o

o

o

o

x

x

o

x

x

    上述混淆矩阵

实际\预测

TP = 6

FN = 2

FP = 4

-

  • 查准率(Precision):总共预测10个词,正确了6个,0.6,正确个数占预测总数的

  • 查全率(Recall):实际8个词,正确了6个,0.75,正确个数占实际总数的

  • F10.67F_1 \approx 0.67

3.2. 多分类

  1. 计算A的混淆矩阵:

    实际\预测

    2

    2

    0

    -

    查准率:总共预测2个词,正确了2个,P=1.0P = 1.0

    查全率:实际4个词,正确了2个,R=0.5R = 0.5

    F10.67F_1 \approx 0.67

  2. 计算B的混淆矩阵:

    实际\预测

    2

    1

    2

    -

    查准率:总共预测4个词,正确了2个,P=0.5P = 0.5

    查全率:实际3个词,正确了2个,R=0.66R = 0.66

    F10.57625F_1 \approx 0.57625

  3. 计算C的混淆矩阵:

    实际\预测

    1

    1

    2

    -

    查准率:总共预测3个词,正确1个,P=0.33P = 0.33

    查全率:实际2个词,正确了1个,R=0.5R = 0.5

    F10.39759F_1 \approx 0.39759

    根据上述结果计算

  1. 微平均 Micro F1(合并混淆矩阵)

    实际\预测

    5

    4

    4

    -

    查准率:总共预测9个词,正确5个,P=0.56P = 0.56

    查全率:实际9个词,正确5个,P=0.56P = 0.56

    F10.56F_1 \approx 0.56

  2. 宏平均 Macro F1:多个F相加取平均

    F1=0.6667+0.57265+0.397593=0.546F_1 = \frac{0.6667 + 0.57265 + 0.39759}{3} = 0.546

  3. Weight F1:带上权重直接求和(注此处不需再除以3

    F1=49×0.6667+39×0.57265+29×0.39759=0.58F_1 = \frac{4}{9} \times 0.6667 + \frac{3}{9} \times 0.57265 + \frac{2}{9} \times 0.39759 = 0.58


4.频繁项集

4.1. 基本计算

    考虑下面的频繁3-项的集合:

  • {1,2,3}

  • {1,2,4}

  • {1,2,5}

  • {1,3,4}

  • {1,3,5}

  • {1,4,5}

  • {2,3,4}

  • {2,3,5}

  • {3,4,5}

    假定数据集中只有5个项,采用合并策略,由候选产生过程中得到的4-项集不包括:

    验证每个结果如下:

选项
根据结果提取所需的三项集

1,2,3,4

123, 124, 234, 134

1,2,3,5

123, 125, 235, 135

1,2,4,5

125, 125, 245(该项不存在于于3-项集), 145

1,3,4,5

134, 135, 345, 145

4.2. Apriori算法

    根据Apriori算法回答下边问题:

TID
项集

1

面包、牛奶

2

面包、尿布、啤酒、鸡蛋

3

牛奶、尿布、啤酒、可乐

4

面包、牛奶、尿布、啤酒

5

面包、牛奶、尿布、可乐

    利用Apriori算法计算频繁项集可以有效降低计算频繁项集的时间复杂度,上述购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是

    详细解析,根据频繁项集执行计算

用户
面包 A
牛奶 B
尿布 C
啤酒 D
鸡蛋 E
可乐 F

1

v

v

2

v

v

v

v

3

v

v

v

v

4

v

v

v

v

5

v

v

v

v

支持度 >= 3

    从1-项集开始计算:

  • 1项:

    • 项集:{A,B,C,D,E,F}

    • 剪枝移除得到频繁项集:{A,B,C,D}

  • 2项:

    • 项集:{(A,B), (B,C), (C,D), (A,C), (A,D), (B,D)}

    • 剪枝移除得到频繁项集:{(A,B), (B,C), (C,D), (A,C)}

    验证结果

  • {C, D}

  • {A, D} - 剪枝移除

  • {A, C}

  • {B, D} - 剪枝移除

4.3. 频繁闭项集

    下表是一个购物篮,假定支持度阈值为40%,其中( )是频繁闭项集

  • abc

  • abcd

  • bce

  • acde

  • de

    详细解析:

答案
项集
直接超集
间接超集

A

abc = 40%

abcd = 20%

B

ad = 40%

acd = 40%

abcd, acde

C

cd = 40%

acd = 40%, cde = 20%

abcd, acde

D

de = 40%

cde = 20%

acde

根据统计结果可以知道,只有A和D满足频繁闭项集的条件,B和C中acd = 40%使得这两个项集不可能成为频繁闭项集,直接超集的占比和当前频繁项集的占比一样则表示该集合不是频繁闭项集,如结果中adacd都是40%,那么这种场景下,ad就不是频繁闭项集。

5.SVM

5.1.分类面方程

    有两个样本点,第一个点为正样本,特征向量是(0, -1),第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是:

    简单算法:SVM要找到间隔最大的分类平面,这里即求解两点(0, -1),(2, 3)的垂直平分线条,原始斜率为:

k=y1y2x1x2=(13)/(02)=2k = \frac{y_1 - y_2}{x_1 - x_2} = (-1 - 3) / (0 - 2) = 2

    新的斜率(两条支线的斜率乘积为-1

k=1/2=12k = -1 / 2 = \frac{1}{2}

    中点坐标:

(x1+x22,y1+y22)=(1,1)(\frac{x_1 + x_2}{2}, \frac{y_1 + y_2}{2}) = (1, 1)

    代入验证

    SVM原理:一个是负样本,一个是正样本。参考:https://www.nowcoder.com/questionTerminal/104e95c6a13d464a86eb6b657cc545c0arrow-up-right

6.线性回归

6.1. 回归方程

X(年资:单位年)
Y(薪资:单位K)

3

30

8

57

9

64

13

72

3

36

6

43

11

59

21

90

1

20

16

83

    请计算线性回归(Linear Regression)方程式Y=α+βXY = \alpha + \beta Xα\alpha的值:

    简单线性回归中计算公式:

Y=α+βXY = \alpha + \beta X β=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2\beta = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} α=yˉβxˉ\alpha = \bar{y} - \beta \bar{x}

  • 计算xˉ\bar{x}yˉ\bar{y}xˉ=(3+8+...+16)/10=9.1\bar{x} = (3 + 8 + ... + 16) / 10 = 9.1 yˉ=(30+57+...+83)/10=55.4\bar{y} = (30 + 57 + ... + 83) / 10 = 55.4

  • 计算β\beta: i=1n(xixˉ)(yiyˉ)=(39.1)(3055.4)+....+(169.1)(8355.4)(39.1)2+...+(169.1)23.5\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) = \frac{(3 - 9.1)(30 - 55.4) + .... + (16 - 9.1)(83 - 55.4)}{(3 - 9.1)^2 + ... + (16 - 9.1)^2} \approx 3.5

  • 计算α\alphaα=yˉβxˉ=55.49.1×3.523.6\alpha = \bar{y} - \beta \bar{x} = 55.4 - 9.1 \times 3.5 \approx 23.6

7.置信度/支持度

  1. 支持度(Support):同时包含AB的事务所占有事务的比例:

    Support=P(AB)Support = P (A \cap B)

  2. 置信度(Conficence):表示使用包含A事务中同时包含B的比例

    Confidence=P(AB)/P(A)Confidence = P (A \cap B) / P(A)

  3. Lift提升度:“包含A事务中同时包含B的比例”和“包含B事务中比例”的比值

    Lift=P(AB)/P(A)/P(B)Lift = P (A \cap B) / P(A) / P(B)

7.1.基本计算

    1. 有一条关联规则X -> Y,该规则的支持度(Support)为25%,置信度(Confidence)为50%,单独出现X的概率为50%、单独出现Y的概率为25%,则该规则的提升度:

    该题中:

  • P(AB)P(A \cap B) = 0.25

  • P(AB)/P(A)P(A \cap B) / P(A) = 0.5

  • P(A)=0.5,P(B)=0.25P(A) = 0.5, P(B) = 0.25

    所以提升度为P(AB)/P(A)/P(B)=0.5/0.25=2.0P(A \cap B) / P(A) / P(B) = 0.5 / 0.25 = 2.0

    2. 130笔交易数据中,购买面包的交易有80笔,买面包同时也买牛奶的笔数有64笔,求算购买面包的人是否也购买牛奶的置信度(Confidence)为:

    该题中:

  • P(AB)=64130P(A \cap B) = \frac{64}{130}

  • P(A)=80130P(A) = \frac{80}{130}

  • Confidence=P(AB)/P(A)=64130÷80130=0.8Confidence = P(A \cap B) / P(A) = \frac{64}{130} \div \frac{80}{130} = 0.8

7.2.表格型计算范例

事务ID
购买项集

1

A,B,C

2

A,C

3

A,D

4

B,E,F

    计算A -> C的各个参数:

  1. 支持度:

    A=34=0.75,C=12=0.5A = \frac{3}{4} = 0.75, C = \frac{1}{2} = 0.5 Support=P(AB)=0.5=50%Support = P (A \cap B) = 0.5 = 50\%

  2. 置信度:

    P(AB)=0.5,P(A)=0.75P ( A \cap B ) = 0.5, P (A) = 0.75 Confidence=P(AB)/P(A)=0.5/0.75=0.66=66%Confidence = P ( A \cap B ) / P(A) = 0.5 / 0.75 = 0.66 = 66\% Confidence=Support/P(A)Confidence = Support / P(A)

    运算细节:0.5/0.75=12×43=230.660.5 / 0.75 = \frac{1}{2} \times \frac{4}{3} = \frac{2}{3} \approx 0.66

  3. 提升度:

    P(AB)=0.5P ( A \cap B ) = 0.5 P(A)=0.75P (A) = 0.75 P(B)=0.5P (B) = 0.5 Lift=P(AB)/P(A)/P(B)=0.5/0.75/0.5=4/3=1.33=133%Lift = P( A \cap B) / P(A) / P(B) = 0.5 / 0.75 / 0.5 = 4/3 = 1.33 = 133\% Lift=Conficence/P(B)Lift = Conficence / P(B)

8.相关系数计算

    给定五组观察值(x,y)分别为:(6,6), (11,9), (15,12), (21,17), (27,16),求解相关系数。

r=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2r = \frac{\sum\limits_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum\limits_{i=1}^n (X_i - \bar{X})^2}\sqrt{\sum\limits_{i=1}^n (Y_i - \bar{Y})^2}}

  • Xˉ\bar{X} = (6 + 11 + 15 + 21 + 27) / 5 = 16

  • Yˉ\bar{Y} = (6 + 9 + 12 + 17 + 16) / 5 = 12

    求解每一项

i=1
i=2
i=3
i=4
i=5
求和

XiXˉX_i - \bar{X}

-10

-5

-1

5

11

x

YiYˉY_i - \bar{Y}

-6

-3

0

5

4

x

(XiXˉ)(YiYˉ)(X_i - \bar{X})(Y_i - \bar{Y})

60

15

0

25

44

=144\sum = 144(分子)

(XiXˉ)2(X_i - \bar{X})^2

100

25

1

25

121

=272\sum = 272

(YiYˉ)2(Y_i - \bar{Y})^2

36

9

0

25

16

=86\sum = 86

    分母求解:

result=(XiXˉ)2×(YiYˉ)2=272×8616.49×9.27=152.8623result = \sqrt{(X_i - \bar{X})^2} \times \sqrt{(Y_i - \bar{Y})^2} = \sqrt{272} \times \sqrt{86} \approx 16.49 \times 9.27 = 152.8623

    最终结果:

final=144/152.86230.9420final = 144 / 152.8623 \approx 0.9420

    程序计算结果:

    结果:

最后更新于