朴素贝叶斯一步步轻松学1

1 朴素贝叶斯理论

1.1 朴素贝叶斯概述

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

特征独立理解的例子:如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够获取相当好的效果。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。

1.2 朴素贝叶斯模型

朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法,即“简单”地假设每对特征之间相互独立。 给定一个类别

和一个从

的相关的特征向量,贝叶斯定理阐述了以下关系:

使用简单(naive)的假设-每对特征之间都相互独立:

对于所有的 math: i ,这个关系式可以简化为

由于在给定的输入中

是一个常量,我们使用下面的分类规则:

我们可以使用最大后验概率(Maximum A Posteriori, MAP) 来估计

; 前者是训练集中类别 y 的相对频率。各种各样的的朴素贝叶斯分类器的差异大部分来自于处理

分布时的所做的假设不同。尽管其假设过于简单,在很多实际情况下,朴素贝叶斯工作得很好,特别是文档分类和垃圾邮件过滤。相比于其他更复杂的方法,朴素贝叶斯学习器和分类器非常快。

1.3 朴素贝叶斯算法思想

假设有一个数据集,它由两类数据组成,数据分布如下图所示:

我们现在用

表示数据点 (x,y) 属于类别 1(图中用圆点表示的类别)的概率,用

表示数据点 (x,y) 属于类别 2(图中三角形表示的类别)的概率,那么对于一个新数据点 (x,y),可以用下面的规则来判断它的类别:

  • 如果

,那么类别为1

  • 如果

,那么类别为2

也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

1.4 朴素贝叶斯工作原理

提取所有文档中的词条并进行去
获取文档的所有类
计算每个类别中的文档数目
对每篇训练文档: 
  对每个类别:      如果词条出现在文档中-->增加该词条的计数值(for循环或者矩阵相加)       增加所有词条的计数值(此类别下词条总数)对每个类别: 
  对每个词条:        将该词条的数目除以总词条数目得到的条件概率(P(词条|类别))             返回该文档属于每个类别的条件概率(P(类别|文档的所有词条))

1.5 朴素贝叶斯算法流程

收集数据: 可以使用任何方法。 准备数据: 需要数值型或者布尔型数据。 分析数据: 有大量特征时,绘制特征作用不大,此时使用直方图效果更好。 训练算法: 计算不同独立特征的条件概率。 测试算法: 计算错误率。 使用算法: 可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

1.6 朴素贝叶斯优缺点

  • 优点: 在数据较少的情况下仍然有效,可以处理多类别问题。
  • 缺点: 对于输入数据的准备方式较为敏感。 适用数据类型: 标称型数据。

2 案例:朴素贝叶斯性别分类

2.1 问题描述

通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。

2.2 训练数据

性别

身高(英尺)

体重(磅)

脚的尺寸(英寸)

6

180

12

5.92

190

11

5.58

170

12

5.92

165

10

5

100

6

5.5

150

8

5.42

130

7

5.75

150

9

假设训练集样本的特征满足高斯分布,得到下表:

性别

身高均值

身高方差

体重均值

体重方差

脚均值

脚方差

男性

5.85

3.5e-2

176.2

1.2e+2

11.2

9.1e-1

女性

5.41

9.7e-2

132.5

5.5e+2

7.5

1.6e+0

我们认为两种类别是等概率的,也就是P(male)= P(female) = 0.5。在没有做辨识的情况下就做这样的假设并不是一个好的点子。但我们通过数据集中两类样本出现的频率来确定P(C),我们得到的结果也是一样的。

2.3 测试数据

以下给出一个待分类是男性还是女性的样本。

性别

身高(英尺)

体重(磅)

脚的尺寸(英尺)

sample

6

130

8

我们希望得到的是男性还是女性哪类的后验概率大。男性的后验概率通过下面式子来求取

女性的后验概率通过下面式子来求取

证据因子(通常是常数)用来对各类的后验概率之和进行归一化.

证据因子是一个常数(在正态分布中通常是正数),所以可以忽略。接下来我们来判定这样样本的性别。

其中

是训练集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.

集样本的正态分布参数. 注意,这里的值大于1也是允许的 – 这里是概率密度而不是概率,因为身高是一个连续的变量.

2.4 模型预测结果

由于女性后验概率的分子比较大,所以我们预计这个样本是女性。

3 参考文献

[1] scikit中文社区:http://sklearn.apachecn.org/

[2] 中文维基百科:https://zh.wikipedia.org/wiki/

[3] 文本分类特征选择:https://www.cnblogs.com/june0507

[4] GitHub:https://github.com/BaiNingchao/

[5] 图书:《机器学习实战》

[6] 图书:《自然语言处理理论与实战》

4 完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:

原文发布于微信公众号 - 机器学习和自然语言处理(datathinks)

原文发表时间:2018-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

深度学习在计算机视觉领域的前沿进展

2843
来自专栏AI科技评论

干货 | ImageNet冠军模型SE-Net详解

AI 科技评论按:本文首发于公众号 MomentaAI,已获授权转载。 论文链接: https://arxiv.org/abs/1709.01507 GitHu...

4135
来自专栏量化投资与机器学习

基于 RNN、LSTM 的股票多因子预测模型

前言 在机器学习如何应用到量化投资的系列文章中,今天我们专门来介绍一篇来自国信证券的研究报告,来从券商角度分析这个问题。 对于最直接的问题:能否利用神经网络,要...

1.5K7
来自专栏AI科技评论

大会 | 智能感知与计算研究中心11篇论文被CVPR接收

AI 科技评论按:本文作者郭瑞娥,首发于中科院自动化所「智能感知与计算研究中心」微信公众号,AI 科技评论获授权转载。 CVPR 是计算机视觉、模式识别和人工智...

2916
来自专栏数据派THU

循序渐进提升Kaggle竞赛模型精确度,以美国好事达保险公司理赔为例

作者:Werner Chao 翻译:白静 术语校对:黄凯波 本文长度为2800字,建议阅读8分钟 线上心理健康公司KaJin Health首席数据分析师教你怎么...

5266
来自专栏SIGAI学习与实践平台

理解凸优化

凸优化(convex optimization)是最优化问题中非常重要的一类,也是被研究的很透彻的一类。对于机器学习来说,如果要优化的问题被证明是凸优化问题,则...

1532
来自专栏数据魔术师

机器学习 | 模型评估和选择

3485
来自专栏SIGAI学习与实践平台

视觉多目标跟踪算法综述(上)-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨...

1.1K3
来自专栏数据科学与人工智能

【陆勤阅读】机器学习算法基础知识

可利用的算法非常之多。困难之处在于既有不同种类的方法,也有对这些方法的扩展。这导致很快就难以区分到底什么才是正统的算法。在这个帖子里,我希望给你两种方式来思考和...

2307
来自专栏专知

【干货】深度学习中的数学理解— 教你深度学习背后的故事

【导读】如今,深度学习在各项任务中所向披靡,比如图像识别,语音处理和自然语言处理。但是,深度学习的理论探讨却比应用滞后好几个数量级,一方面是做应用马上能见效,然...

3087

扫码关注云+社区

领取腾讯云代金券