7.朴素贝叶斯
朴素贝叶斯
贝氏定理:
Naive Bayesian只能做分类,不可做数字预测,贝叶斯中少除了一个P(X),因为通常只是计算大小,所以对分类而言不影响结果。假设:输入之间的特征之间是相互独立的,概率归一化:最终概率综合应该等于1,另外一个假设是每个字段都同等重要,朴素贝叶斯自己不做字段筛选。
只能处理类别型字段,如果是数值型需要做离散化,直接计算数值也可使用正态分布计算这个特征对应的概率。
拉普拉斯修正法(Laplace Correction)对概率进行修正,防止零概率,如数据中有空值,那么直接忽略。
在Big Data环境中,它能支持Incremental Learning/Updatable Learning,十分难得,可以直接修正原始模型。
贝式网络TAN
考虑特征之间的相关性:一个输入字段除了和目标字段相关,还和另外一个输入字段相关。
不同类型的朴素贝叶斯
将所有类别型字段转换成二元Dummy,所有字段中的值视为正态分布方式出现(针对数值型特征,高斯分布)。
将数值型字段离散化成类别型字段,再将所有的字段转换二元的Dummy字段(针对类别型和顺序型,伯努利分布)。
在文本分析中,每个关键字出现在每篇文章中的次数,并非以正态分布的方式呈现(针对二元类别特征的朴素贝叶斯模型,多项式分布)。
最后更新于
这有帮助吗?