1. 支持度/置信度/提升度
1.1. 基础概念
支持度(Support):同时包含A
和B
的事务所占有事务的比例:
Support=P(A∩B)
置信度(Conficence):表示使用包含A
事务中同时包含B
的比例
Confidence=P(A∩B)/P(A)
Lift提升度:“包含A事务中同时包含B的比例”和“包含B事务中比例”的比值
Lift=P(A∩B)/P(A)/P(B)
注意:上边三个指标在定义的时候有一个方向问题,描述的是A -> B
的方向,支持度的计算是直接计算,无关方向,但置信度和提升度的计算的分母部分则关联到方向问题。
1.2. 「例」
1.2.1. 计算参数
计算A -> C
的各个参数:
2. 杰卡德Jaccard
2.1. 基本概念
A contingency table for binary variables:
杰卡德的应用场景:
在聚类(Clustering)问题中,如果数据字段属性都是二元属性(Binary Variable),根据上述表,Jaccard Coefficient计算数据间的距离公式为:
3. 频繁项计算
3.1. 基本概念
项的集合称为项集,包含k个项的项集称为k-项集,项集的出项频率是包含项集的事务数,简称为项集的事务集,支持度计数或计数。注意,定义项集的支持度有时称为相对支持度,而出现的频率称为绝对支持度。如果项集I的相对支持度满足预定义的最小支持度阈值,则I是频繁项集。
置信度——是指某个关联规则的概率,可以用P(B|A)
表示。
关联规则——表示的是在某个频繁项集的条件下推出另一个频繁项集的频率,如果该关联规则的置信度大于等于最小置信度,则为强关联规则。
闭频繁项集(Closed Frequent Itemset)——当项集X
是频繁项集,且数据集D
中不存在X
的真超集Y
,是的X
和Y
的支持度相等,则X
就是闭频繁项集。闭频繁项集的表示是无损压缩,不会丢失支持度的信息。通过闭频繁项集可以反推出所有的频繁项集以及相应的支持度。
极大频繁项集(Maximal Frequent Itemset)——当项集X
是频繁项集,且数据集D
中不存在X
的真超集,使得Y
是频繁项集,则X
是极大频繁项集。极大频繁项集的表示是有损压缩,失去了频繁项集的支持度信息,我们可以根据极大频繁项集判断任意项集是否频繁的,但无法得到相应的支持度。
最大规则对象数——规则中对象组所包含的最大对象数量。
最小支持——规则中对象或是对象组必须匹配的最低案例数。
最小信心水准——计算规则所必须匹配的最低信心水准门槛。
3.2. 「例」
3.2.1. 基本计算
考虑下面的频繁3-项的集合:
假定数据集中只有5个项,采用合并策略,由候选产生过程中得到的4-项集不包括:
验证每个结果如下:
125, 125, 245(该项不存在于于3-项集), 145
3.2.2. Apriori算法
根据Apriori算法回答下边问题:
利用Apriori算法计算频繁项集可以有效降低计算频繁项集的时间复杂度,上述购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是
详细解析,根据频繁项集执行计算
用户
面包 A
牛奶 B
尿布 C
啤酒 D
鸡蛋 E
可乐 F
支持度 >= 3
从1-项集开始计算:
2项:
项集:{(A,B), (B,C), (C,D), (A,C), (A,D), (B,D)}
剪枝移除得到频繁项集:{(A,B), (B,C), (C,D), (A,C)}
验证结果
3.2.3. 频繁闭项集
下表是一个购物篮,假定支持度阈值为40%
,其中( )是频繁闭项集
详细解析:
根据统计结果可以知道,只有A和D满足频繁闭项集的条件,B和C中acd = 40%
使得这两个项集不可能成为频繁闭项集,直接超集的占比和当前频繁项集的占比一样则表示该集合不是频繁闭项集,如结果中ad
和acd
都是40%,那么这种场景下,ad
就不是频繁闭项集。
4. Gini Index计算
4.1. 基本概念
在决策树的CART
算法中划分决策树的条件是使用Gini Index,该定义如下(标识数据集的纯度):
直观来说,数据集的基尼系数反应了从数据集D中随机抽取两个样本,其类别不一样的概率,于是Gini系数越小证明数据集纯度越高。
4.2.「例」
4.2.1. Gini计算
给定以下的便利店选点数据集,并采用CART的分类树算法构建分类树(目标字段为最后一个字段)时,请回答以下题目:
当左子树是道路距离<=30,右子树是道路距离31~40或>40时,请计算此树的Gini值为何?
当左子树是人口密度=中,右子树是人口密度=高或人口密度=低时,请计此树的Gini值为何?
当子树是区域类别=住宅区,右子树是区域类别=商业区时,请计算此树的Gini值为何?
当左子树是捷运车站=有,右子树是捷运车站=没有时,请计算此树的Gini值为何?
5. 贝叶斯公式
5.1. 基本概念
条件概率是事件A在另一个事件B已经发生条件下的发生概率,记作:
联合概率表示两个事件共同发生的概率,A和B的联合概率记作:
先验概率是某个事件的概率,A的先验概率和B的先验概率分别记作:
5.2.「例」
5.2.1. 概率计算
设某公路上经过的火车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率?
6. 混淆矩阵
6.1. 基本概念
6.1.1. 基本参数
下边是变化过后的值,主要用于计算,可以不用理睬。
6.1.2. 特定参数
6.2.「例」
6.2.1. ROC曲线
ROC曲线的x轴,实际上可以由每个阈值下混淆矩阵的( )计算而来
ROC曲线的y轴,实际上可以由每个阈值下混淆矩阵的( )计算而来
6.2.2. 基础参数
对于属性值YES的响应率(Precision)应如何计算
对于属性值YES的查全率(Recall)应如何计算
7. F1计算
7.1. 基本概念
F-meansure的通用公式:
多分类做法:
Macro F1:宏观,将多个类的F1相加算平均(每个类同等重要)
Weighted F1:在Macro基础上加权(按照每种类型的比例加权计算)
7.2. 「例」
7.2.1. 文本评估
正确分词(实际)
伊拉克
已
连续
第四天
将
原油
倾入
波斯湾
上述混淆矩阵
查准率(Precision):总共预测10个词,正确了6个,0.6
,正确个数占预测总数的真。
查全率(Recall):实际8个词,正确了6个,0.75
,正确个数占实际总数的真。
7.2.2. 多分类
上述结果计算:
Weight F1:带上权重直接求和(注此处不需再除以3)
8.多项式特征
8.1. 基本概念
degree
此参数决定了多项式的最大维度:
A=43=0.75 C=21=0.5 Support=P(A∩B)=0.5=50%
备注:此处的 ∩ 运算是取交集,即最大公约概率,并非使用乘法的方式将两个概率相乘。
P(A∩B)=0.5 P(A)=0.75 Confidence=P(A∩B)/P(A)=0.5/0.75=0.66=66% Confidence=Support/P(A)
运算细节:0.5/0.75=21×34=32≈0.66
P(A∩B)=0.5 P(A)=0.75P(B)=0.5Lift=P(A∩B)/P(A)/P(B)=0.5/0.75/0.5=4/3=1.33=133%Lift=Conficence/P(B)
J(A,B)=∣A∪B∣∣A∩B∣=q+r+sq
J=1−J(A,B)=∣A∪B∣∣A∪B∣−∣A∩B∣=q+r+sr+s
d(i,j)=(r+s)/(q+r+s)
Gini(D)=1−∑j=1npj2
左Gini:1−(52)2−(53)2=0.48 左占比:5+95=145 右Gini:1−(97)2−(92)2≈0.34568 右占比:5+99=149 最终Gini: 0.48×145+0.34568×149 ≈0.17143+0.22222 ≈0.394
左Gini:1−(64)2−(62)2≈0.4444 左占比:6+86=146 右Gini:1−(85)2−(83)2=0.46875右占比:6+88=148 最终Gini: 0.4444×146+0.46875×148 ≈0.19047+0.26786 ≈0.458
P(BA)或P(A∩B)
P(A),P(B)
P(A∣B)=P(B)P(A∩B) P(B∣A)=P(A)P(A∩B) 通过代换得到
P(A∣B)=P(B)P(B∣A)×P(A) P(A∣B)×P(B)=P(B∣A)×P(A)
解析: P(A1):经过的车是货车的概率:32 P(A2):经过的车是客车的概率:31 P(B∣A1):货车中途停车修理的概率 = 0.02 P(B∣A2):客车中途停车修理的概率 = 0.01 根据上述四个结果,计算: P(B)=P(A1)×P(B∣A1)+P(A2)×P(B∣A2) P(A1∣B)=P(B)P(B∣A1)×P(A1)=P(A1)×P(B∣A1)+P(A2)×P(B∣A2)P(B∣A1)×P(A1) P(A1∣B)=0.02×32+0.01×310.02×32=54=0.8
Accuracy=TN+FN+TP+FPTP+TN (对角线\
)
1−Accuracy=TN+FN+TP+FPFN+FP (对角线/
)
Precision=TP+FPTP=P (预测正)
Recall=TP+FNTP=R (真实正)
F−Measure=Precision+Recall2×Precision×Recall=P+R2×P×R
Sensitivity=Recall=S
Specificity=TN+FPTN (预测负)
TPR=TP+FNTP
TNR=TN+FPTN
FPR=1−TNR=TN+FPFP
FNR=1−TPR=TP+FNFN
Fβ=(1+β2)×(β2×Precision)+RecallPrecision×Recall
F1=2×Precision+RecallPrecision×Recall
F1≈0.67
F1=30.6667+0.57265+0.39759=0.546
F1=94×0.6667+93×0.57265+92×0.39759=0.58
假设有两个变量x1,x2
如果degree = 2
:x1,x2,x12,x22
如果degree = 3
:x1,x2,x12,x22,x13,x23
默认的PolynomialFeatures
包含了交互特征:x1x2
图中有错,Polynomial Features为 x12,x22,中间的6
才是交互(互信息)。
1−(73)2−(74)2≈0.48980 7+77=147 1−(76)2−(71)2≈0.24490 7+77=147 0.48980×147+0.24490×147 ≈0.2449+0.12245 ≈0.367 1−(86)2−(82)2=0.375 8+68=148 1−(63)2−(63)2=0.5 8+66=146 0.375×148+0.5×146 ≈0.21429+0.21429 ≈0.429 F1≈0.67 F1≈0.57625 F1≈0.39759 F1≈0.56