朴素贝叶斯算法详解（1）

机器学习算法工程师

发布于 2018-03-06 11:34:40

7800

发布于 2018-03-06 11:34:40

1. 引言

　　朴素贝叶斯算法（Naive Bayes）是机器学习中常见的基本算法之一，主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集，首先基于特征条件独立性假设学习输入/输出的联合概率分布，然后基于此模型，对于给定的输入 x 利用贝叶斯定理求出后验概率最大的输出 y。　　基于以上的解释，我们知道：1. 该算法的理论核心是贝叶斯定理；2. 它是基于条件独立性假设这个强假设之下的，这也是该算法为什么称为“朴素”的原因。

本文将从以下几个角度去详细解释朴素贝叶斯算法：

朴素贝叶斯算法的数学原理；
朴素贝叶斯算法的参数估计；
拉普拉斯平滑；

2. 原理

　　介绍完了基本概念之后，我们就应该详细地介绍算法的原理。由于该算法的基本思想是基于朴素贝叶斯定理的，所以本节首先介绍一下朴素贝叶斯算法背后的数学原理。

2.1 贝叶斯定理

　　根据贝叶斯定理，对一个分类问题，给定样本特征 x，样本属于类别 y 的概率是

P(y|x)=P(x|y)∗P(y)P(x)(1)

公式中的 x 是特征向量的维度，假设为 d。因此，有：

P(y|x)=P(x1,x2,...,xd|y)∗P(y)P(x)(2)

由于条件概率分布有指数及数量的参数，因此，求解该问题是一个NP难问题，实现中很难解决，所以直接求解不可行。因此，朴素贝叶斯法对条件概率分布做了条件独立性的假设，于是有：

P(x1,x2,...,xd|y=ck)=∏i=0dP(xi|y=ck)(3)

将（3）带入（2）得：

P(y=ck|x)=P(y=ck)∏di=0P(xi|y=ck)P(x)(4)

这是朴素贝叶斯法分类的基本公式。因此，朴素贝叶斯分类器可以表示为：

y=f(x)=argmaxckP(y=ck)∏di=0P(xi|y=ck)P(x)(5)

由于所有的P(x)的分布是一样的，所以：

y=f(x)=argmaxckP(y=ck)∏i=0dP(xi|y=ck)(6)

2.2 后验概率最大化的意义

　　由上述的推导可知，朴素贝叶斯分类是将实例分到后验概率最大的类中。这等价于期望风险最小化。这就是朴素贝叶斯法所采用的原理。

3. 参数估计

　　由（6）可知，朴素贝叶斯法的学习过程主要是估计 P(y=ck) 以及 P(xj|y=ck)。

P(y=ck)=∑Ni=1I(yi=ck)N,k=1,2,...,K(7)

P(Xj=xj|y=ck)=∑Ni=1I(Xj=xj,y=ck)∑Ni=1I(yi=ck),k=1,2,...,K(8)

4. 拉普拉斯平滑

　　到这里好像方法已经介绍完了，实则有一个小问题需要注意，在公式中，如果从样本中算出的概率值为0该怎么办呢？下面介绍一种简单方法，给学习步骤中的两个概率计算公式，分子和分母都分别加上一个常数，就可以避免这个问题。更新过后的公式如下：

P(y=ck)=∑Ni=1I(yi=ck)+λN+Kλ,k=1,2,...,K(9)

K是类的个数

P(Xj=xj|y=ck)=∑Ni=1I(Xj=xj,y=ck)+λ∑Ni=1I(yi=ck)+Ljλ,k=1,2,...,K(10)

Lj是第j维特征的最大取值

以上都是基于特征值x为离散值的情况的讨论，那么，对于连续值的情况怎么处理呢？请听下文分解！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-08-05，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自机器学习算法全栈工程师微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度