首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

朴素贝叶斯法篇

本篇摘要

上一篇k近邻法篇介绍了用训练数据的分布进行多种类分类。这次要介绍的也是多类别分类场景的分类方法,而是也是给予训练数据的分布,不涉及学习过程。所以是比较类似的。KNN是选择K个最近的点,看下这些点中大部分是哪个类别,而朴素贝叶斯方法是看下训练数据中,相似输入的类别概率,看哪个概率最大。这儿主要就是贝叶斯的先验概率后验概率,还有极大似然值。好了,现在开始我们这一篇的介绍吧。

我们这一篇有两个要点,朴素贝叶斯法的介绍+朴素贝叶斯法的参数估计

朴素贝叶斯法

首先介绍下贝叶斯公式

(发现一个在线编辑公式的网址,效果不错,http://latex.codecogs.com/eqneditor/editor.php)

上面公式的解释就是在B事件前提下,A发生的概率等于A和B事件都发生的概率除以B事件发生的概率。而事件A和B同时发生的概率等于事件A发生的概率乘以在A事件发生的前提下B事件发生的概率。

用到分类问题里面就是,给一个输入特征x,对应类别y的概率就等于训练数据中类别y的概率乘以在类别y中,拥有特征x的概率,然后除以在训练数据中用有特征x的概率。

这样就将分类问题转换成了计算训练数据中的概率问题。我们的目的就是要获取特征X和输出Y的联合概率分布P(X,Y).

有几个概念还是需要介绍下:

后验概率:. 就是在输入条件x的条件下,输出类别是的概率。是输出集合中的某一个类别。我们就是希望获取这个结果,直到这个结果后,我们只要选择概率最大的一个类别就达到分类目的了。

先验概率:,这个就是训练数据中类别的概率,有训练数据,这个是很容易知道的。

似然函数:, 这个就是在类别中,特征是x的概率。

证据因子:这个就是整个训练集合中,拥有特征x的概率。

看到这儿,发现分类好容易了。不过还有2个问题,

我们的特征x往往有n维,每个维度有种取值,类别也有K种,那岂不是参数会特别多?是的,算一下就知道,可以达到种。这样太复杂了,实际中怎么处理?

按照公式,如果在训练数据中,某个类别中没有某个特征的数据,那岂不是拥有这个特征的输入是这个类别的概率永远是零?比如在预测足球球队胜率的场合中,如果你输入的数据都是世界杯的比赛情况,里面有一支球队从来没赢过,然后在预测时,你的输入是中国球队和这支球队,那岂不是中国球队百分之百胜?这种情况怎么处理?

下面的讨论就是围绕这两个问题而来:

条件独立性假设

这个是针对问题1,假设特征空间中各个特征是互相独立的,互相没有耦合性,用数学表示下就是:

这样贝叶斯分类器就变得简单了。我们的目标就是计算后验概率,挑选后验概率最大的作为x的类别输出。

这样我们可以得到朴素贝叶斯分类器公式:

注意的是,上面的式子分母对于所有的都是相同的,所以可以简化一下:

这时候就好理解了,分类就是选择这样一个类别,这个类别占比大,而且该类别中,拥有这个特征的比例也很大。

这时候分类算法就出来了

计算先验概率和条件概率。,

计算给定输入的后验概率。

选取最大后验概率的类别,作为输入的类别

贝叶斯估计

这个就是针对前面概率可能为0的情况,也就是问题二。要解决的话,就是对分子分母修改下,分母加上类别的种类,分子加上1,这样就保证了概率和为1,而且概率永不为零。

具体似然函数式子就是:

被称为拉普拉斯平滑

先验概率式子就是:

到了这儿,朴素贝叶斯分类就介绍完了

总结

本篇介绍了下朴素贝叶斯的分类方法,并由两个问题作为引导,引出了后面的条件独立性假设和贝叶斯估计。下一篇开始决策树。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180303G01MDC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券