版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_27717921/article/details/78162175
朴素贝叶斯模型基于贝叶斯公式
来估计后验概率
,但是整个公式里最困难的部分就是对
的估计。可以分为下面几种情况来进行讨论。
对后验概率的估计可写为
由于分布对所有的c来讲都是相同的,所以对样本x的分类是取决于分子的大小的。 离散属性
连续属性 对于连续属性,可以考虑概率密度函数,假定
其中
和
分别代表的是第c类样本在第i个属性上取值的均值和方差。
需注意,若某个属性值在训练集中没有与某个类同时出现过,那么直接基于属性独立性而连乘进行概率估计,那么后验概率进行的判别也会出现问题,连乘式为0,那么无论该样本的其他属性是什么,分类结果则直接为0,导致其他属性携带的信息被训练集中未出现的属性值“抹去”,因此为了避免这种情况的出现,在估计概率值时需要进行平滑,而常用的平滑方法有“拉普拉斯修正”,具体来说,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数。根据拉普拉斯修正我们可以分别修正为
拉普拉斯修正避免了因训练集样本不充分的而导致概率估计为0的问题,并且在训练集变大时,修正过程中所引入的先验的影响也会逐渐变得可忽略,使得估值逐渐趋向实际的概率值。