前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >朴素贝叶斯模型

朴素贝叶斯模型

作者头像
张凝可
发布2019-08-21 22:55:39
3720
发布2019-08-21 22:55:39
举报
文章被收录于专栏:技术圈

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/qq_27717921/article/details/78162175

朴素贝叶斯模型基于贝叶斯公式

这里写图片描述
这里写图片描述

来估计后验概率

这里写图片描述
这里写图片描述

,但是整个公式里最困难的部分就是对

这里写图片描述
这里写图片描述

的估计。可以分为下面几种情况来进行讨论。

–基于属性条件独立性假设

这里写图片描述
这里写图片描述

对后验概率的估计可写为

这里写图片描述
这里写图片描述

由于分布对所有的c来讲都是相同的,所以对样本x的分类是取决于分子的大小的。 离散属性

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

连续属性 对于连续属性,可以考虑概率密度函数,假定

这里写图片描述
这里写图片描述

其中

这里写图片描述
这里写图片描述

这里写图片描述
这里写图片描述

分别代表的是第c类样本在第i个属性上取值的均值和方差。

这里写图片描述
这里写图片描述

需注意,若某个属性值在训练集中没有与某个类同时出现过,那么直接基于属性独立性而连乘进行概率估计,那么后验概率进行的判别也会出现问题,连乘式为0,那么无论该样本的其他属性是什么,分类结果则直接为0,导致其他属性携带的信息被训练集中未出现的属性值“抹去”,因此为了避免这种情况的出现,在估计概率值时需要进行平滑,而常用的平滑方法有“拉普拉斯修正”,具体来说,令N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数。根据拉普拉斯修正我们可以分别修正为

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

拉普拉斯修正避免了因训练集样本不充分的而导致概率估计为0的问题,并且在训练集变大时,修正过程中所引入的先验的影响也会逐渐变得可忽略,使得估值逐渐趋向实际的概率值。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年10月05日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • –基于属性条件独立性假设
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档