朴素贝叶斯算法详解(1)

1. 引言

  朴素贝叶斯算法(Naive Bayes)是机器学习中常见的基本算法之一,主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入 x 利用贝叶斯定理求出后验概率最大的输出 y。   基于以上的解释,我们知道:1. 该算法的理论核心是贝叶斯定理;2. 它是基于条件独立性假设这个强假设之下的,这也是该算法为什么称为“朴素”的原因。

本文将从以下几个角度去详细解释朴素贝叶斯算法:

  1. 朴素贝叶斯算法的数学原理;
  2. 朴素贝叶斯算法的参数估计;
  3. 拉普拉斯平滑;

2. 原理

  介绍完了基本概念之后,我们就应该详细地介绍算法的原理。由于该算法的基本思想是基于朴素贝叶斯定理的,所以本节首先介绍一下朴素贝叶斯算法背后的数学原理。

2.1 贝叶斯定理

  根据贝叶斯定理,对一个分类问题,给定样本特征 x,样本属于类别 y 的概率是

P(y|x)=P(x|y)∗P(y)P(x)(1)

公式中的 x 是特征向量的维度,假设为 d。因此,有:

P(y|x)=P(x1,x2,...,xd|y)∗P(y)P(x)(2)

由于条件概率分布有指数及数量的参数,因此,求解该问题是一个NP难问题,实现中很难解决,所以直接求解不可行。因此,朴素贝叶斯法对条件概率分布做了条件独立性的假设,于是有:

P(x1,x2,...,xd|y=ck)=∏i=0dP(xi|y=ck)(3)

将(3)带入(2)得:

P(y=ck|x)=P(y=ck)∏di=0P(xi|y=ck)P(x)(4)

这是朴素贝叶斯法分类的基本公式。因此,朴素贝叶斯分类器可以表示为:

y=f(x)=argmaxckP(y=ck)∏di=0P(xi|y=ck)P(x)(5)

由于所有的P(x)的分布是一样的,所以:

y=f(x)=argmaxckP(y=ck)∏i=0dP(xi|y=ck)(6)

2.2 后验概率最大化的意义

  由上述的推导可知,朴素贝叶斯分类是将实例分到后验概率最大的类中。这等价于期望风险最小化。这就是朴素贝叶斯法所采用的原理。

3. 参数估计

  由(6)可知,朴素贝叶斯法的学习过程主要是估计 P(y=ck) 以及 P(xj|y=ck)。

P(y=ck)=∑Ni=1I(yi=ck)N,k=1,2,...,K(7)

P(Xj=xj|y=ck)=∑Ni=1I(Xj=xj,y=ck)∑Ni=1I(yi=ck),k=1,2,...,K(8)

4. 拉普拉斯平滑

  到这里好像方法已经介绍完了,实则有一个小问题需要注意,在公式中,如果从样本中算出的概率值为0该怎么办呢?下面介绍一种简单方法,给学习步骤中的两个概率计算公式,分子和分母都分别加上一个常数,就可以避免这个问题。更新过后的公式如下:

P(y=ck)=∑Ni=1I(yi=ck)+λN+Kλ,k=1,2,...,K(9)

K是类的个数

P(Xj=xj|y=ck)=∑Ni=1I(Xj=xj,y=ck)+λ∑Ni=1I(yi=ck)+Ljλ,k=1,2,...,K(10)

Lj是第j维特征的最大取值


以上都是基于特征值x为离散值的情况的讨论,那么,对于连续值的情况怎么处理呢?请听下文分解!

原文发布于微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文发表时间:2017-08-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SnailTyan

Inception-V3论文翻译——中文版

Rethinking the Inception Architecture for Computer Vision 摘要 对许多任务而言,卷积网络是目前最新的计...

2121
来自专栏机器学习算法与Python学习

干货 | 来自DeepMind的深度强化学习大总结......

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 ? ? ? ? ? ? ? ? ? ...

3559
来自专栏YoungGy

ML基石_11_HazardOfOverfitting

学习曲线来说,当数据量N很小的时候,large generation会造成很大的Eout。 ? 造成overfit的主要有四种因素: 1. 资料量不够...

1845
来自专栏我的python

自然语言处理之文本卷积

自然语言处理之文本卷积 1.文本的向量表示 2.文本的1维卷积 3.池化

31416
来自专栏云时之间

极大似然公式证明

通过经验风险最小化推导极大似然估计,证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计 ? 字有点丑,多多担待啦(∩ơ ㅅ ơ...

32910
来自专栏雪胖纸的玩蛇日常

10.贝叶斯理论

733
来自专栏AI科技评论

学界 | 大白话解释模型产生过拟合的原因

AI科技评论按:本文原作者忆臻,原载于作者的知乎专栏。 今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,...

3439
来自专栏CreateAMind

Deep Learning Book 中文第十二章 大规模应用

大规模深度学习:GPU、分布式、压缩、动态结构等;视觉预处理等;自然语言,推荐系统介绍。

581
来自专栏鸿的学习笔记

十张图解释机器学习

3.奥卡姆剃刀:贝叶斯推理表现出奥卡姆剃刀原理了。 这个图给出了为什么复杂的模型会变得不那么可能了。 水平轴表示可能的数据集D的空间。贝叶斯定理奖励模型的比例与...

661
来自专栏YoungGy

ML基石_9_LinearRegression

linear regression problem linear regression algorithm 优化问题 求梯度 算法 generalization...

1916

扫描关注云+社区