文章/答案/技术大牛

发布

朴素贝叶斯法篇

文章来源：企鹅号

本篇摘要

上一篇k近邻法篇介绍了用训练数据的分布进行多种类分类。这次要介绍的也是多类别分类场景的分类方法，而是也是给予训练数据的分布，不涉及学习过程。所以是比较类似的。KNN是选择K个最近的点，看下这些点中大部分是哪个类别，而朴素贝叶斯方法是看下训练数据中，相似输入的类别概率，看哪个概率最大。这儿主要就是贝叶斯的先验概率后验概率，还有极大似然值。好了，现在开始我们这一篇的介绍吧。

我们这一篇有两个要点，朴素贝叶斯法的介绍+朴素贝叶斯法的参数估计

朴素贝叶斯法

首先介绍下贝叶斯公式

(发现一个在线编辑公式的网址，效果不错，http://latex.codecogs.com/eqneditor/editor.php)

上面公式的解释就是在B事件前提下，A发生的概率等于A和B事件都发生的概率除以B事件发生的概率。而事件A和B同时发生的概率等于事件A发生的概率乘以在A事件发生的前提下B事件发生的概率。

用到分类问题里面就是，给一个输入特征x，对应类别y的概率就等于训练数据中类别y的概率乘以在类别y中，拥有特征x的概率，然后除以在训练数据中用有特征x的概率。

这样就将分类问题转换成了计算训练数据中的概率问题。我们的目的就是要获取特征X和输出Y的联合概率分布P(X,Y).

有几个概念还是需要介绍下：

后验概率：. 就是在输入条件x的条件下，输出类别是的概率。是输出集合中的某一个类别。我们就是希望获取这个结果，直到这个结果后，我们只要选择概率最大的一个类别就达到分类目的了。

先验概率：,这个就是训练数据中类别的概率，有训练数据，这个是很容易知道的。

似然函数：, 这个就是在类别中，特征是x的概率。

证据因子：这个就是整个训练集合中，拥有特征x的概率。

看到这儿，发现分类好容易了。不过还有2个问题，

我们的特征x往往有n维，每个维度有种取值，类别也有K种,那岂不是参数会特别多？是的，算一下就知道，可以达到种。这样太复杂了，实际中怎么处理？

按照公式，如果在训练数据中，某个类别中没有某个特征的数据，那岂不是拥有这个特征的输入是这个类别的概率永远是零？比如在预测足球球队胜率的场合中，如果你输入的数据都是世界杯的比赛情况，里面有一支球队从来没赢过，然后在预测时，你的输入是中国球队和这支球队，那岂不是中国球队百分之百胜？这种情况怎么处理？

下面的讨论就是围绕这两个问题而来：

条件独立性假设

这个是针对问题1，假设特征空间中各个特征是互相独立的，互相没有耦合性，用数学表示下就是：

这样贝叶斯分类器就变得简单了。我们的目标就是计算后验概率，挑选后验概率最大的作为x的类别输出。

这样我们可以得到朴素贝叶斯分类器公式：

注意的是，上面的式子分母对于所有的都是相同的，所以可以简化一下：

这时候就好理解了，分类就是选择这样一个类别，这个类别占比大，而且该类别中，拥有这个特征的比例也很大。

这时候分类算法就出来了

计算先验概率和条件概率。,

计算给定输入的后验概率。

选取最大后验概率的类别，作为输入的类别

贝叶斯估计

这个就是针对前面概率可能为0的情况，也就是问题二。要解决的话，就是对分子分母修改下，分母加上类别的种类，分子加上1，这样就保证了概率和为1，而且概率永不为零。

具体似然函数式子就是：

被称为拉普拉斯平滑

先验概率式子就是：

到了这儿，朴素贝叶斯分类就介绍完了

总结

本篇介绍了下朴素贝叶斯的分类方法，并由两个问题作为引导，引出了后面的条件独立性假设和贝叶斯估计。下一篇开始决策树。

发表于: 2018-03-032018-03-03 00:11:34
原文链接：http://kuaibao.qq.com/s/20180303G01MDC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

朴素贝叶斯法篇

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐