机器学习算法的R语言实现:朴素贝叶斯分类器

1、引子

朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中朴素的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。

2、实例

最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“颜色”取值为红、绿。对这三个特征描述的苹果中,对苹果的按味道进行分类,可取的值为good、bad。

朴素贝叶斯分类器就要要解决如下一个问题,已知苹果味道取good和bad的概率,那么如果给定一个一组苹果的特征,那么这个苹果味道取good和bad的概率是多少?这是个典型的逆概率的问题。

尺寸(size) 大 小 大 大 小 小 重量(weight) 轻 重 轻 轻 重 轻 颜色(color) 红 红 红 绿 红 绿 味道(taste) good good bad bad bad good

以上给出了6个苹果的特征描述及其口味,那个一个大而重的红苹果,能否估计出它的味道是good还是bad?

这里我们先解释下朴素的含义,朴素就是这样一个假设:描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想,对这个例子来说,这个假设就不成立嘛,大小和重量从直觉上我们都会感到是两个正相关的特征。是的,朴素的假设在实际世界中是较难满足的,但是实际使用中,基于这个假设作出预测的正确率是在一个可接受的范围。

3、基本方法

(P(A|B)) 表示在确定B的情况下,事件A发生的概率,而在实际情况中,我们或许更关心(P(B|A))但是只能直接获得(P(A|B)) ,此时我们需要一个工具可以把(P(A|B)) 和(P(B|A))相互转化, 贝叶斯定理就是这样一个公式,下面给出贝叶斯定理: [P(B|A) = \frac{{P(A|B)P(B)}}{{P(A)}}]

对苹果分类的问题,有三个特征(F = { {f_1},{f_2},{f_3}} ),两种分类(C = { {c_1},{c_2}} ),根据贝叶斯公式有给定特征条件下,特征为({c_i})的概率 [P({c_i}|{f_1}{f_2}{f_3}) = \frac{{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}}{{P({f_1}{f_2}{f_3})}}] 使得上式取得最大值的({c_i})即为分类结果,由于对给定训练集来说,({P({f_1}{f_2}{f_3})})为常数,那么就转为为求 [{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}] 的最大值。

朴素贝叶斯的假设在这里就体现了,由于特征值相互独立,那么上式可以转化为 [P({f_1}|{c_i})P({f_2}|{c_i})P({f_3}|{c_i})P({c_i})] 整个问题就变为求使得上式取最大值的({c_i}),而上式中的每一项都可以从训练集中得到。

最后讨论下Laplace校准,如果某一个特性值在训练集中出现的次数为0,那么以上我们讨论的公式就没有意义了,以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况,但是如果避免不了就需要进行Laplace校准。其实很简单,把所有出现特征出现的次数都加上1,即为Laplace校准。

4、R语言实现

结果为

class.name pre_prob 1 bad 0.07407407 2 good 0.03703704 可见该苹果的口味为bad

5、朴素贝叶斯分类小结

1、属于有监督的学习(有训练集); 2、主要处理离散类型的数据,如果为连续数据可先进行离散化; 3、训练集的特征取值要尽量完备,如果有缺失需进行预处理(Laplace校准); 4、关于特征值相互独立的假设,在实际问题中一般无法满足,但基于此假设做的预测是可以接受的。

关于其他的朴素贝叶斯介绍可见:

python 贝叶斯小案例

http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html http://www.cnblogs.com/leoo2sk/archive/2010/09/17/1829190.html

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2017-02-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

机器学习入门概览

我们从一个实例来了解机器学习的基本概念。假设我们现在面临这样一个任务(Task) ,任务的内容是识别手写体的数字。对于计算机而言,这些手写数字是一张张图片,如下...

781
来自专栏机器之心

专栏 | 阿里 AI LAB ICCV 2017 录用论文详解:语言卷积神经网络应用于图像标题生成的经验学习

3627
来自专栏专知

深度强化学习首次在无监督视频摘要生成问题中的应用:实现state-of-the-art效果

【导读】近日,针对视频摘要自动生成中大多数方法均为多阶段建模的问题,来自中国科学院、伦敦大学玛丽皇后学院的学者发表论文提出基于深度强化学习的无监督视频摘要方法。...

6475
来自专栏机器之心

学界 | 又快又准确,新目标检测器速度可达每秒200帧

1775
来自专栏CDA数据分析师

科普 | 12个关键词,告诉你到底什么是机器学习

随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于非专业人士...

1937
来自专栏机器学习算法与Python学习

精华 | 12个关键词告诉你告诉你什么是机器学习(基础篇)

键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | 小象 随着人工智能(AI)技术...

3545
来自专栏机器之心

学界 | 提升DNN参数准确度:MILA提出贝叶斯超网络

选自arXiv 机器之心编译 参与:蒋思源、李泽南 深度神经网络(DNN)参数中简单而强大的贝叶斯推理(Bayesian inference)技术有可能大大扩展...

3098
来自专栏人工智能

AI的元学习之路

人类的智能的一个关键点在于能力多样性 —— 我们能胜任各种各样的任务。而目前的AI系统则擅长掌握单一技能,例如围棋,Jeopardy(美国的一档电视智力竞赛节目...

4038
来自专栏AI科技评论

优必选悉尼AI研究院博士生:混合比例估计在弱监督学习和迁移学习中的延伸与应用

AI 科技评论按:在大数据时代,标注足够多的训练样本往往耗费巨大。弱监督学习方法往往能够减轻对正确标签的过度依赖,达到与监督学习相近的性能。然而,在设计弱监督学...

1192
来自专栏顶级程序员

12个关键词,告诉你到底什么是机器学习

编者按:随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于...

2905

扫码关注云+社区

领取腾讯云代金券