13.计算题分析
1.贝叶斯
1.1. 修车类型
设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率?
条件分析:
P(B)
条件事件,停车修理。
全概率公式:P(B∣A1)P(A1)+P(B∣A2)P(A2)
P(A1)
判断事件,车辆是货车。
2/3
P(A2)
判断事件,车辆是客车。
1/2
P(B∣A1)
已知车是货车,停车修理概率。
0.02
P(B∣A2)
已知车是客车,停车修理的概率。
0.01
求解:P(A1∣B)的概率:已知停车修理,该车是货车的概率。
P(A1∣B)=P(B)P(B∣A1)×P(A1)
此处P(B)的求解需要使用全概率公式,基本条件:
事件A1,A2在当前题目中互斥,且A1∪A2=Ω
事件A1,A2是样本空间Ω的一部分。
分母最终结果为 P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=0.02×32+0.01×31=0.05×31
分子最终结果: P(B∣A1)×P(A1)=0.02×32=0.04×31
最后结果:P(A1∣B)=(0.04×31)/(0.05×31)=0.8
1.2. 头等舱男女
观察某航空公司男女搭机的行为:假设搭机中65%是女性、剩余是男性。女性搭头等舱的概率是30%,而男性搭头等舱的概率是75%。请问头等舱的人中,有多少概率是男生?
条件分析:
P(B)
搭头等舱的概率。
P(A1)
判断事件,女性。
0.65
P(A2)
判断事件,男性。
0.35
P(B∣A1)
已知是女性,搭头等舱的概率。
0.3
P(B∣A2)
已知是男性,搭头等舱的概率。
0.75
求解:P(A2∣B)的概率:已知搭载头等舱,该人是男性的概率。
P(A2∣B)=P(B)P(B∣A2)×P(A2)
全概率公式:
P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)
求解步骤:
先使用全概率公式P(B)求分母: P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=0.65×0.3+0.35×0.75=0.195+0.2625=0.4575
分子求解结果: P(B∣A2)×P(A2)=0.35×0.75=0.2625
最后结果: 0.2625÷0.4575≈0.5738
1.3. 电脑购买
通过对某地区的部分人群进行调查,获得了他们对于的age、income、是否为student、Credit_rating以及是否购买某品牌的电脑的信息进行了记录。训练样例如表1,通过训练样例得到表2,表3为根据表2的统计数据,得到的在分类为YES和NO的条件下各个属性值取得的概率以及YES和NO在所有样例中取值的概率:

1. 表2是由表1得到的,表2中的M和N值分别是?

分析:贝叶斯分类根据图中的数据得到表2,表2不包含概率,直接使用计数处理。
M为
Buy_computer = YES的数量,直接统计为:9。N为
Buy_computer = NO,条件为age=Youth的数量,直接统计为:0(Youth全部是YES)。
2. 表3是由表2得到的,表3中的M和N值分别是?

分析:图3是概率图,直接计算:
M为
Buy_computer = YES的概率,9÷14=9/14,14是总数。N为
Buy_computer = NO,条件为age=Youth的概率(即年轻人买电脑的概率),0÷5=0。
3. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent),则P(YES∣x)的值为:
贝叶斯公式:
P(YES∣x)=P(x)P(x∣YES)×P(YES)
分子求:
P(x∣YES)=31×95×31×31
P(YES)=149
两者相乘:2435×149=3785≈0.0132
分母为P(x)
最终结果为0.0132/P(x)=0.0132/P(x=(age=Youth,Income=Medium,Student=No,Creditrating=Excellent))
4. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent),则P(NO∣x)的值为:
因为
age = Youth为0,所以分子计算后结果为0。
1.4. 性别预测

测试数据:
Magazine Promotion = Yes
Watch Promotion = Yes
Life Insurance Promotion = No
Credit Card Insurance = No
Sex = ?

整理新表格

P(A)
Sex = Male
P(B)
Sex = Female
P(E)
Magazine Promotion=Yes Watch Promotion=Yes Life Insurance Promotion=No Credit Card Insurance=No
男性
事件
Sex = Male为A
求解P(A∣E)=P(E)P(E∣A)×P(A)
P(A):求解
Sex = Male的概率,直接计算:6/10 = 0.6P(E∣A):条件同时满足的概率,直接计算:64×62×64×64=818
最终结果:(818×0.6)/P(E)≈P(E)0.0593
女性
事件
Sex = Female为B
求解P(B∣E)=P(E)P(E∣B)×P(B)
P(B):求解
Sex = Female的概率,直接计算:4/10 = 0.4P(E∣B):条件同时满足的概率,直接计算:43×42×41×43=1289
最终结果:(1289×0.4)/P(E)≈P(E)0.0281
由此可见,测试数据中男性的概率更大。
1.5. 疾病诊断(多分类)

测试数据:

Sore Throat = No
Fever = No
Swollen Glands = Yes
Congestion = Yes
Headache = Yes
整理新表格:
ST = Strep Throat
A = Allergy
C = Cold

P(A)
Diagnosis = Strep Throat
P(B)
Diagnosis = Allergy
P(C)
Diagnosis = Cold
P(E)
Sore Throat=No Fever=No Swollen Glands=Yes Congestion=Yes Headache=Yes
Strep Throat
事件
Diagnosis = Strep Throat为A 求解P(A∣E)=P(E)P(E∣A)×P(A)P(A):求解
Diagnosis = Strep Throat的概率,直接计算:3/10 = 0.3P(E∣A):条件同时满足的概率,直接计算:31×32×1×31×31=812
最终结果:(812×0.3)/P(E)≈P(E)0.0074
Allergy
事件
Diagnosis = Allergy为B 求解P(B∣E)=P(E)P(E∣B)×P(B)P(B):求解
Diagnosis = Allergy的概率,直接计算:3/10 = 0.3P(E∣B):条件同时满足的概率,直接计算:32×1×0×1×32=0
最终结果:0
Cold
事件
Diagnosis = Cold为C 求解P(C∣E)=P(E)P(E∣C)×P(C)P(C):求解
Diagnosis = Code的概率,直接计算:4/10 = 0.4P(E∣C):条件同时满足的概率,直接计算:42×0×1×1×21=0
最终结果:0
2.Gini计算
2.1. Gini计算
给定以下的便利店选点数据集,并采用CART的分类树算法构建分类树(目标字段为最后一个字段)时,请回答以下题目:

当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?
当左子树是人口密度=中,右子树是人口密度=高或人口密度=低时,请计此树的Gini值为何?
当子树是区域类别=住宅区,右子树是区域类别=商业区时,请计算此树的Gini值为何?
当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?
3.混淆矩阵
3.1. 文本评估
分词结果(预测)
伊拉克
已
连续
第四天
将
原
油
倾入
波斯
湾
正确
o
o
o
o
o
x
x
o
x
x
上述混淆矩阵
真
TP = 6
FN = 2
假
FP = 4
-
查准率(Precision):总共预测10个词,正确了6个,
0.6,正确个数占预测总数的真。查全率(Recall):实际8个词,正确了6个,
0.75,正确个数占实际总数的真。F1≈0.67
3.2. 多分类

计算A的混淆矩阵:
实际\预测真假真
2
2
假
0
-
查准率:总共预测2个词,正确了2个,P=1.0
查全率:实际4个词,正确了2个,R=0.5
F1≈0.67
计算B的混淆矩阵:
实际\预测真假真
2
1
假
2
-
查准率:总共预测4个词,正确了2个,P=0.5
查全率:实际3个词,正确了2个,R=0.66
F1≈0.57625
计算C的混淆矩阵:
实际\预测真假真
1
1
假
2
-
查准率:总共预测3个词,正确1个,P=0.33
查全率:实际2个词,正确了1个,R=0.5
F1≈0.39759
根据上述结果计算:
微平均 Micro F1(合并混淆矩阵)
实际\预测真假真
5
4
假
4
-
查准率:总共预测9个词,正确5个,P=0.56
查全率:实际9个词,正确5个,P=0.56
F1≈0.56
宏平均 Macro F1:多个F相加取平均
F1=30.6667+0.57265+0.39759=0.546
Weight F1:带上权重直接求和(注此处不需再除以3)
F1=94×0.6667+93×0.57265+92×0.39759=0.58
4.频繁项集
4.1. 基本计算
考虑下面的频繁3-项的集合:
{1,2,3}
{1,2,4}
{1,2,5}
{1,3,4}
{1,3,5}
{1,4,5}
{2,3,4}
{2,3,5}
{3,4,5}
假定数据集中只有5个项,采用合并策略,由候选产生过程中得到的4-项集不包括:
验证每个结果如下:
1,2,3,4
123, 124, 234, 134
1,2,3,5
123, 125, 235, 135
1,2,4,5
125, 125, 245(该项不存在于于3-项集), 145
1,3,4,5
134, 135, 345, 145
4.2. Apriori算法
根据Apriori算法回答下边问题:
1
面包、牛奶
2
面包、尿布、啤酒、鸡蛋
3
牛奶、尿布、啤酒、可乐
4
面包、牛奶、尿布、啤酒
5
面包、牛奶、尿布、可乐
利用Apriori算法计算频繁项集可以有效降低计算频繁项集的时间复杂度,上述购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是
详细解析,根据频繁项集执行计算
1
v
v
2
v
v
v
v
3
v
v
v
v
4
v
v
v
v
5
v
v
v
v
支持度 >= 3
从1-项集开始计算:
1项:
项集:
{A,B,C,D,E,F}剪枝移除得到频繁项集:
{A,B,C,D}
2项:
项集:
{(A,B), (B,C), (C,D), (A,C), (A,D), (B,D)}剪枝移除得到频繁项集:
{(A,B), (B,C), (C,D), (A,C)}
验证结果
{C, D}
{A, D} - 剪枝移除
{A, C}
{B, D} - 剪枝移除
4.3. 频繁闭项集
下表是一个购物篮,假定支持度阈值为40%,其中( )是频繁闭项集
abc
abcd
bce
acde
de
详细解析:
A
abc = 40%
abcd = 20%
B
ad = 40%
acd = 40%
abcd, acde
C
cd = 40%
acd = 40%, cde = 20%
abcd, acde
D
de = 40%
cde = 20%
acde
根据统计结果可以知道,只有A和D满足频繁闭项集的条件,B和C中acd = 40%使得这两个项集不可能成为频繁闭项集,直接超集的占比和当前频繁项集的占比一样则表示该集合不是频繁闭项集,如结果中ad和acd都是40%,那么这种场景下,ad就不是频繁闭项集。
5.SVM
5.1.分类面方程
有两个样本点,第一个点为正样本,特征向量是(0, -1),第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是:
简单算法:SVM要找到间隔最大的分类平面,这里即求解两点(0, -1),(2, 3)的垂直平分线条,原始斜率为:
k=x1−x2y1−y2=(−1−3)/(0−2)=2
新的斜率(两条支线的斜率乘积为-1)
k=−1/2=21
中点坐标:
(2x1+x2,2y1+y2)=(1,1)
代入验证
SVM原理:一个是负样本,一个是正样本。参考:https://www.nowcoder.com/questionTerminal/104e95c6a13d464a86eb6b657cc545c0
6.线性回归
6.1. 回归方程
3
30
8
57
9
64
13
72
3
36
6
43
11
59
21
90
1
20
16
83
请计算线性回归(Linear Regression)方程式Y=α+βX中α的值:
简单线性回归中计算公式:
Y=α+βX β=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ) α=yˉ−βxˉ
计算xˉ和yˉ: xˉ=(3+8+...+16)/10=9.1 yˉ=(30+57+...+83)/10=55.4
计算β: ∑i=1n(xi−xˉ)(yi−yˉ)=(3−9.1)2+...+(16−9.1)2(3−9.1)(30−55.4)+....+(16−9.1)(83−55.4)≈3.5
计算α: α=yˉ−βxˉ=55.4−9.1×3.5≈23.6
7.置信度/支持度
支持度(Support):同时包含
A和B的事务所占有事务的比例:Support=P(A∩B)
置信度(Conficence):表示使用包含
A事务中同时包含B的比例Confidence=P(A∩B)/P(A)
Lift提升度:“包含A事务中同时包含B的比例”和“包含B事务中比例”的比值
Lift=P(A∩B)/P(A)/P(B)
7.1.基本计算
1. 有一条关联规则X -> Y,该规则的支持度(Support)为25%,置信度(Confidence)为50%,单独出现X的概率为50%、单独出现Y的概率为25%,则该规则的提升度:
该题中:
P(A∩B) = 0.25
P(A∩B)/P(A) = 0.5
P(A)=0.5,P(B)=0.25
所以提升度为P(A∩B)/P(A)/P(B)=0.5/0.25=2.0
2. 130笔交易数据中,购买面包的交易有80笔,买面包同时也买牛奶的笔数有64笔,求算购买面包的人是否也购买牛奶的置信度(Confidence)为:
该题中:
P(A∩B)=13064
P(A)=13080
Confidence=P(A∩B)/P(A)=13064÷13080=0.8
7.2.表格型计算范例
1
A,B,C
2
A,C
3
A,D
4
B,E,F
计算A -> C的各个参数:
支持度:
A=43=0.75,C=21=0.5 Support=P(A∩B)=0.5=50%
置信度:
P(A∩B)=0.5,P(A)=0.75 Confidence=P(A∩B)/P(A)=0.5/0.75=0.66=66% Confidence=Support/P(A)
运算细节:0.5/0.75=21×34=32≈0.66
提升度:
P(A∩B)=0.5 P(A)=0.75P(B)=0.5Lift=P(A∩B)/P(A)/P(B)=0.5/0.75/0.5=4/3=1.33=133%Lift=Conficence/P(B)
8.相关系数计算
给定五组观察值(x,y)分别为:(6,6), (11,9), (15,12), (21,17), (27,16),求解相关系数。
r=i=1∑n(Xi−Xˉ)2i=1∑n(Yi−Yˉ)2i=1∑n(Xi−Xˉ)(Yi−Yˉ)
Xˉ = (6 + 11 + 15 + 21 + 27) / 5 = 16
Yˉ = (6 + 9 + 12 + 17 + 16) / 5 = 12
求解每一项
Xi−Xˉ
-10
-5
-1
5
11
x
Yi−Yˉ
-6
-3
0
5
4
x
(Xi−Xˉ)(Yi−Yˉ)
60
15
0
25
44
∑=144(分子)
(Xi−Xˉ)2
100
25
1
25
121
∑=272
(Yi−Yˉ)2
36
9
0
25
16
∑=86
分母求解:
result=(Xi−Xˉ)2×(Yi−Yˉ)2=272×86≈16.49×9.27=152.8623
最终结果:
final=144/152.8623≈0.9420
程序计算结果:
结果:
最后更新于