7.朴素贝叶斯

朴素贝叶斯

    贝氏定理:

P(YX)=P(X,Y)P(X)=P(X,Y)×P(Y)P(X)×P(Y)=P(XY)×P(Y)P(X)P(Y|X) = \frac{P(X,Y)}{P(X)} = \frac{P(X,Y) \times P(Y)}{P(X) \times P(Y)} = P(X|Y) \times \frac{P(Y)}{P(X)}

    Naive Bayesian只能做分类,不可做数字预测,贝叶斯中少除了一个P(X),因为通常只是计算大小,所以对分类而言不影响结果。假设:输入之间的特征之间是相互独立的,概率归一化:最终概率综合应该等于1,另外一个假设是每个字段都同等重要,朴素贝叶斯自己不做字段筛选。

    只能处理类别型字段,如果是数值型需要做离散化,直接计算数值也可使用正态分布计算这个特征对应的概率。

    拉普拉斯修正法(Laplace Correction)对概率进行修正,防止零概率,如数据中有空值,那么直接忽略

    在Big Data环境中,它能支持Incremental Learning/Updatable Learning,十分难得,可以直接修正原始模型。

贝式网络TAN

    考虑特征之间的相关性:一个输入字段除了和目标字段相关,还和另外一个输入字段相关。

不同类型的朴素贝叶斯

  • 将所有类别型字段转换成二元Dummy,所有字段中的值视为正态分布方式出现(针对数值型特征,高斯分布)。

  • 将数值型字段离散化成类别型字段,再将所有的字段转换二元的Dummy字段(针对类别型和顺序型,伯努利分布)。

  • 在文本分析中,每个关键字出现在每篇文章中的次数,并非以正态分布的方式呈现(针对二元类别特征的朴素贝叶斯模型,多项式分布)。

最后更新于