1.贝叶斯
1.1. 修车类型
设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率?
条件分析:
求解:P(A1∣B)的概率:已知停车修理,该车是货车的概率。
P(A1∣B)=P(B)P(B∣A1)×P(A1)
此处P(B)的求解需要使用全概率公式,基本条件:
事件A1,A2在当前题目中互斥,且A1∪A2=Ω
事件A1,A2是样本空间Ω的一部分。
分母最终结果为 P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=0.02×32+0.01×31=0.05×31
分子最终结果: P(B∣A1)×P(A1)=0.02×32=0.04×31
最后结果:P(A1∣B)=(0.04×31)/(0.05×31)=0.8
1.2. 头等舱男女
观察某航空公司男女搭机的行为:假设搭机中65%是女性、剩余是男性。女性搭头等舱的概率是30%,而男性搭头等舱的概率是75%。请问头等舱的人中,有多少概率是男生?
条件分析:
全概率公式:
求解步骤:
1.3. 电脑购买
通过对某地区的部分人群进行调查,获得了他们对于的age
、income
、是否为student
、Credit_rating
以及是否购买某品牌的电脑的信息进行了记录。训练样例如表1,通过训练样例得到表2,表3为根据表2的统计数据,得到的在分类为YES和NO的条件下各个属性值取得的概率以及YES和NO在所有样例中取值的概率:
1. 表2是由表1得到的,表2中的M和N值分别是?
分析:贝叶斯分类根据图中的数据得到表2,表2不包含概率,直接使用计数处理。
M为Buy_computer = YES
的数量,直接统计为:9。
N为Buy_computer = NO
,条件为age=Youth
的数量,直接统计为:0(Youth全部是YES)。
2. 表3是由表2得到的,表3中的M和N值分别是?
分析:图3是概率图,直接计算:
贝叶斯公式:
因为age = Youth
为0,所以分子计算后结果为0。
1.4. 性别预测
测试数据:
Life Insurance Promotion = No
Credit Card Insurance = No
整理新表格
Magazine Promotion=Yes
Watch Promotion=Yes
Life Insurance Promotion=No
Credit Card Insurance=No
男性
女性
由此可见,测试数据中男性的概率更大。
1.5. 疾病诊断(多分类)
测试数据:
整理新表格:
Sore Throat=No
Fever=No
Swollen Glands=Yes
Congestion=Yes
Headache=Yes
Strep Throat
Allergy
Cold
2.Gini计算
2.1. Gini计算
给定以下的便利店选点数据集,并采用CART的分类树算法构建分类树(目标字段为最后一个字段)时,请回答以下题目:
当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?
当左子树是人口密度=中,右子树是人口密度=高或人口密度=低时,请计此树的Gini值为何?
当子树是区域类别=住宅区,右子树是区域类别=商业区时,请计算此树的Gini值为何?
当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?
3.混淆矩阵
3.1. 文本评估
正确分词(实际)
伊拉克
已
连续
第四天
将
原油
倾入
波斯湾
上述混淆矩阵
查准率(Precision):总共预测10个词,正确了6个,0.6
,正确个数占预测总数的真。
查全率(Recall):实际8个词,正确了6个,0.75
,正确个数占实际总数的真。
3.2. 多分类
根据上述结果计算:
Weight F1:带上权重直接求和(注此处不需再除以3)
4.频繁项集
4.1. 基本计算
考虑下面的频繁3-项的集合:
假定数据集中只有5个项,采用合并策略,由候选产生过程中得到的4-项集不包括:
验证每个结果如下:
125, 125, 245(该项不存在于于3-项集), 145
4.2. Apriori算法
根据Apriori算法回答下边问题:
利用Apriori算法计算频繁项集可以有效降低计算频繁项集的时间复杂度,上述购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是
详细解析,根据频繁项集执行计算
用户
面包 A
牛奶 B
尿布 C
啤酒 D
鸡蛋 E
可乐 F
支持度 >= 3
从1-项集开始计算:
2项:
项集:{(A,B), (B,C), (C,D), (A,C), (A,D), (B,D)}
剪枝移除得到频繁项集:{(A,B), (B,C), (C,D), (A,C)}
验证结果
4.3. 频繁闭项集
下表是一个购物篮,假定支持度阈值为40%
,其中( )是频繁闭项集
详细解析:
根据统计结果可以知道,只有A和D满足频繁闭项集的条件,B和C中acd = 40%
使得这两个项集不可能成为频繁闭项集,直接超集的占比和当前频繁项集的占比一样则表示该集合不是频繁闭项集,如结果中ad
和acd
都是40%,那么这种场景下,ad
就不是频繁闭项集。
5.SVM
5.1.分类面方程
有两个样本点,第一个点为正样本,特征向量是(0, -1)
,第二个点为负样本,它的特征向量是(2,3)
,从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是:
简单算法:SVM要找到间隔最大的分类平面,这里即求解两点(0, -1),(2, 3)
的垂直平分线条,原始斜率为:
新的斜率(两条支线的斜率乘积为-1
)
中点坐标:
代入验证
6.线性回归
6.1. 回归方程
简单线性回归中计算公式:
7.置信度/支持度
支持度(Support):同时包含A
和B
的事务所占有事务的比例:
置信度(Conficence):表示使用包含A
事务中同时包含B
的比例
Lift提升度:“包含A事务中同时包含B的比例”和“包含B事务中比例”的比值
7.1.基本计算
1. 有一条关联规则X -> Y
,该规则的支持度(Support)为25%,置信度(Confidence)为50%,单独出现X
的概率为50%、单独出现Y
的概率为25%
,则该规则的提升度:
该题中:
2. 130笔交易数据中,购买面包的交易有80笔,买面包同时也买牛奶的笔数有64笔,求算购买面包的人是否也购买牛奶的置信度(Confidence)为:
该题中:
7.2.表格型计算范例
计算A -> C
的各个参数:
8.相关系数计算
给定五组观察值(x,y)
分别为:(6,6), (11,9), (15,12), (21,17), (27,16)
,求解相关系数。
求解每一项
分母求解:
最终结果:
程序计算结果:
import pandas as pd
import math
# 函数:计算相关系数
def calc_corr(a, b):
a_avg = sum(a)/len(a)
b_avg = sum(b)/len(b)
# 计算分子,协方差————按照协方差公式,本来要除以n的,由于在相关系数中上下同时约去了n,于是可以不除以n
cov_ab = sum([(x - a_avg)*(y - b_avg) for x,y in zip(a, b)])
# 计算分母,方差乘积————方差本来也要除以n,在相关系数中上下同时约去了n,于是可以不除以n
sq = math.sqrt(sum([(x - a_avg)**2 for x in a]))*math.sqrt(sum([(x - b_avg)**2 for x in b]))
corr_factor = cov_ab/sq
return corr_factor
a=[6,11,15,21,27]
b=[6,9,12,17,16]
b_s = pd.Series(b)
a_s = pd.Series(a)
cor1 = a_s.corr(b_s) # 直接使用Pandas计算
cor2 = calc_corr(a,b) # 自定义函数计算
print(cor1, cor2)
结果:
0.9415184057386946 0.9415184057386946
求解:P(A2∣B)的概率:已知搭载头等舱,该人是男性的概率。
P(A2∣B)=P(B)P(B∣A2)×P(A2)
P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)
先使用全概率公式P(B)求分母: P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=0.65×0.3+0.35×0.75=0.195+0.2625=0.4575
分子求解结果: P(B∣A2)×P(A2)=0.35×0.75=0.2625
最后结果: 0.2625÷0.4575≈0.5738
M为Buy_computer = YES
的概率,9÷14=9/14,14是总数。
N为Buy_computer = NO
,条件为age=Youth
的概率(即年轻人买电脑的概率),0÷5=0。
3. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent)
,则P(YES∣x)的值为:
P(YES∣x)=P(x)P(x∣YES)×P(YES)
P(x∣YES)=31×95×31×31
P(YES)=149
两者相乘:2435×149=3785≈0.0132
最终结果为0.0132/P(x)=0.0132/P(x=(age=Youth,Income=Medium,Student=No,Creditrating=Excellent))
4. 现有测试样例:x = (age = Youth, Income = Medium, Student = No, Credit_rating = Excellent)
,则P(NO∣x)的值为:
求解P(A∣E)=P(E)P(E∣A)×P(A)
P(A):求解Sex = Male
的概率,直接计算:6/10 = 0.6
P(E∣A):条件同时满足的概率,直接计算:64×62×64×64=818
最终结果:(818×0.6)/P(E)≈P(E)0.0593
求解P(B∣E)=P(E)P(E∣B)×P(B)
P(B):求解Sex = Female
的概率,直接计算:4/10 = 0.4
P(E∣B):条件同时满足的概率,直接计算:43×42×41×43=1289
最终结果:(1289×0.4)/P(E)≈P(E)0.0281
事件Diagnosis = Strep Throat
为A 求解P(A∣E)=P(E)P(E∣A)×P(A)
P(A):求解Diagnosis = Strep Throat
的概率,直接计算:3/10 = 0.3
P(E∣A):条件同时满足的概率,直接计算:31×32×1×31×31=812
最终结果:(812×0.3)/P(E)≈P(E)0.0074
事件Diagnosis = Allergy
为B 求解P(B∣E)=P(E)P(E∣B)×P(B)
P(B):求解Diagnosis = Allergy
的概率,直接计算:3/10 = 0.3
P(E∣B):条件同时满足的概率,直接计算:32×1×0×1×32=0
事件Diagnosis = Cold
为C 求解P(C∣E)=P(E)P(E∣C)×P(C)
P(C):求解Diagnosis = Code
的概率,直接计算:4/10 = 0.4
P(E∣C):条件同时满足的概率,直接计算:42×0×1×1×21=0
左Gini:1−(52)2−(53)2=0.48 左占比:5+95=145 右Gini:1−(97)2−(92)2≈0.34568 右占比:5+99=149 最终Gini: 0.48×145+0.34568×149≈0.17143+0.22222≈0.394
左Gini:1−(64)2−(62)2≈0.4444 左占比:6+86=146 右Gini:1−(85)2−(83)2=0.46875右占比:6+88=148 最终Gini: 0.4444×146+0.46875×148≈0.19047+0.26786≈0.458
F1≈0.67
F1=30.6667+0.57265+0.39759=0.546
F1=94×0.6667+93×0.57265+92×0.39759=0.58
k=x1−x2y1−y2=(−1−3)/(0−2)=2
k=−1/2=21
(2x1+x2,2y1+y2)=(1,1)
请计算线性回归(Linear Regression)方程式Y=α+βX中α的值:
Y=α+βX β=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ) α=yˉ−βxˉ
计算xˉ和yˉ: xˉ=(3+8+...+16)/10=9.1 yˉ=(30+57+...+83)/10=55.4
计算β: ∑i=1n(xi−xˉ)(yi−yˉ)=(3−9.1)2+...+(16−9.1)2(3−9.1)(30−55.4)+....+(16−9.1)(83−55.4)≈3.5
计算α: α=yˉ−βxˉ=55.4−9.1×3.5≈23.6
Support=P(A∩B)
Confidence=P(A∩B)/P(A)
Lift=P(A∩B)/P(A)/P(B)
P(A∩B) = 0.25
P(A∩B)/P(A) = 0.5
P(A)=0.5,P(B)=0.25
所以提升度为P(A∩B)/P(A)/P(B)=0.5/0.25=2.0
P(A∩B)=13064
P(A)=13080
Confidence=P(A∩B)/P(A)=13064÷13080=0.8
A=43=0.75,C=21=0.5 Support=P(A∩B)=0.5=50%
P(A∩B)=0.5,P(A)=0.75 Confidence=P(A∩B)/P(A)=0.5/0.75=0.66=66% Confidence=Support/P(A)
运算细节:0.5/0.75=21×34=32≈0.66
P(A∩B)=0.5 P(A)=0.75P(B)=0.5Lift=P(A∩B)/P(A)/P(B)=0.5/0.75/0.5=4/3=1.33=133%Lift=Conficence/P(B)
r=i=1∑n(Xi−Xˉ)2i=1∑n(Yi−Yˉ)2i=1∑n(Xi−Xˉ)(Yi−Yˉ)
Xˉ = (6 + 11 + 15 + 21 + 27) / 5 = 16
Yˉ = (6 + 9 + 12 + 17 + 16) / 5 = 12
result=(Xi−Xˉ)2×(Yi−Yˉ)2=272×86≈16.49×9.27=152.8623
final=144/152.8623≈0.9420
P(B∣A1)P(A1)+P(B∣A2)P(A2) P(B∣A1) P(B∣A2) P(B∣A1) P(B∣A2) 1−(73)2−(74)2≈0.48980 7+77=147 1−(76)2−(71)2≈0.24490 7+77=147 0.48980×147+0.24490×147≈0.2449+0.12245≈0.367 1−(86)2−(82)2=0.375 8+68=148 1−(63)2−(63)2=0.5 8+66=146 0.375×148+0.5×146≈0.21429+0.21429≈0.429 F1≈0.67 F1≈0.57625 F1≈0.39759 F1≈0.56 (Xi−Xˉ)(Yi−Yˉ) (Xi−Xˉ)2 (Yi−Yˉ)2