机器学习算法的R语言实现:朴素贝叶斯分类器

1、引子

朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中 朴素 的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。

2、实例

最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“颜色”取值为红、绿。对这三个特征描述的苹果中,对苹果的按味道进行分类,可取的值为good、bad。

朴素贝叶斯分类器就要要解决如下一个问题,已知苹果味道取good和bad的概率,那么如果给定一个一组苹果的特征,那么这个苹果味道取good和bad的概率是多少?这是个典型的逆概率的问题。

尺寸(size) 大 小 大 大 小 小

重量(weight) 轻 重 轻 轻 重 轻

颜色(color) 红 红 红 绿 红 绿

味道(taste) good good bad bad bad good

以上给出了6个苹果的特征描述及其口味,那个一个大而重的红苹果,能否估计出它的味道是good还是bad?

这里我们先解释下 朴素 的含义,朴素就是这样一个假设:描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想,对这个例子来说,这个假设就不成立嘛,大小和重量从直觉上我们都会感到是两个正相关的特征。是的,朴素的假设在实际世界中是较难满足的,但是实际使用中,基于这个假设作出预测的正确率是在一个可接受的范围。

3、基本方法

P ( AB ) 表示在确定B的情况下,事件A发生的概率,而在实际情况中,我们或许更关心 P ( BA ) 但是只能直接获得 P ( AB ) ,此时我们需要一个工具可以把 P ( AB ) 和

P ( BA )

相互转化, 贝叶斯定理就是这样一个公式,下面给出贝叶斯定理:

$$P(B|A) = \frac{{P(A|B)P(B)}}{{P(A)}}$$

对苹果分类的问题,有三个特征 F = { f 1 , f 2 , f 3 } ,两种分类 C = { c 1 , c 2 } ,根据贝叶斯公式有给定特征条件下,特征为

c i

的概率

$$P({c_i}|{f_1}{f_2}{f_3}) = \frac{{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}}{{P({f_1}{f_2}{f_3})}}$$

使得上式取得最大值的 c i 即为分类结果,由于对给定训练集来说,

P ( f 1 f 2 f 3 )

为常数,那么就转为为求

P ( f 1 f 2 f 3 ∣ c i ) P ( c i )

的最大值。

朴素 贝叶斯的假设在这里就体现了,由于特征值相互独立,那么上式可以转化为

P ( f 1 ∣ c i ) P ( f 2 ∣ c i ) P ( f 3 ∣ c i ) P ( c i )

整个问题就变为求使得上式取最大值的

c i

,而上式中的每一项都可以从训练集中得到。

最后讨论下 Laplace校准 ,如果某一个特性值在训练集中出现的次数为0,那么以上我们讨论的公式就没有意义了,以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况,但是如果避免不了就需要进行Laplace校准。其实很简单,把所有出现特征出现的次数都加上1,即为Laplace校准。

4、R语言实现

################################# 朴素贝叶斯分类器################################library(plyr)
library(reshape2)#1、根据训练集创建朴素贝叶斯分类器#1.1、生成类别的概率##计算训练集合D中类别出现的概率,即P{c_i}##输入:trainData 训练集,类型为数据框##      strClassName 指明训练集中名称为strClassName列为分类结果##输出:数据框,P{c_i}的集合,类别名称|概率(列名为 prob)class_prob <- function(trainData, strClassName){  #训练集样本数
  length.train <- nrow(trainData)
  dTemp <- ddply(trainData, strClassName, "nrow")
  dTemp <- ddply(dTemp, strClassName, mutate, prob = nrow/length.train)
  dTemp[,-2]
}##1.2、生成每个类别下,特征取不同值的概率##计算训练集合D中,生成每个类别下,特征取不同值的概率,即P{fi|c_i}##输入:trainData 训练集,类型为数据框##      strClassName 指明训练集中名称为strClassName列为分类结果,其余的全部列认为是特征值##输出:数据框,P{fi|c_i}的集合,类别名称|特征名称|特征取值|概率(列名为 prob)feature_class_prob <- function(trainData, strClassName){  # 横表转换为纵表
  data.melt <- melt(trainData,id=c(strClassName))  # 统计频数
  aa <- ddply(data.melt, c(strClassName,"variable","value"), "nrow")  # 计算概率
  bb <- ddply(aa, c(strClassName,"variable"), mutate, sum = sum(nrow), prob = nrow/sum)  # 增加列名
  colnames(bb) <- c("class.name",                    "feature.name",                    "feature.value",                    "feature.nrow",                    "feature.sum",                    "prob")  # 返回结果
  bb[,c(1,2,3,6)]
}#feature_class_prob(iris,"Species")## 以上创建完朴素贝叶斯分类器## 2、使用生成的朴素贝叶斯分类器进行预测##使用生成的朴素贝叶斯分类器进行预测P{fi|c_i}##输入:oneObs 数据框,待预测的样本,格式为 特征名称|特征值##      pc 数据框,训练集合D中类别出现的概率,即P{c_i}  类别名称|概率##      pfc 数据框,每个类别下,特征取不同值的概率,即P{fi|c_i}##                  类别名称|特征名称|特征值|概率##输出:数据框,待预测样本的分类对每个类别的概率,类别名称|后验概率(列名为 prob)pre_class <- function(oneObs, pc,pfc){
  colnames(oneObs) <- c("feature.name", "feature.value")
  colnames(pc) <- c("class.name","prob")
  colnames(pfc) <- c("class.name","feature.name","feature.value","prob")  
  # 取出特征的取值的条件概率
  feature.all <- join(oneObs,pfc,by=c("feature.name","feature.value"),type="inner")  # 取出特征取值的条件概率连乘
  feature.prob <- ddply(feature.all,.(class.name),summarize,prob_fea=prod(prob))  #prod为连乘函数
  
  #取出类别的概率
  class.all <- join(feature.prob,pc,by="class.name",type="inner")  #输出结果
  ddply(class.all,.(class.name),mutate,pre_prob=prob_fea*prob)[,c(1,4)]
}##3、数据测试##用上面苹果的数据作为例子进行测试#训练集train.apple <-data.frame(
  size=c("大","小","大","大","小","小"),
  weight=c("轻","重","轻","轻","重","轻"),
  color=c("红","红","红","绿","红","绿"),
  taste=c("good","good","bad","bad","bad","good")
  )#待预测样本oneObs<-data.frame(
  feature.name =c("size", "weight", "color"),
  feature.value =c("大","重","红")
)#预测分类pc <- class_prob(train.apple,"taste")
pfc <- feature_class_prob(train.apple,"taste")
pre_class(oneObs, pc,pfc)

结果为

class.name pre_prob

1 bad 0.07407407

2 good 0.03703704

可见该苹果的口味为bad

5、朴素贝叶斯分类小结

1、属于有监督的学习(有训练集);

2、主要处理离散类型的数据,如果为连续数据可先进行离散化;

3、训练集的特征取值要尽量完备,如果有缺失需进行预处理(Laplace校准);

4、关于特征值相互独立的假设,在实际问题中一般无法满足,但基于此假设做的预测是可以接受的。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-07-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

反向传播(backpropagation)算法 | 深度学习笔记

接上一篇(多层感知机(MLP)与神经网络结构 | 深度学习笔记)的最后,我们要训练多层网络的时候,最后关键的部分就是求梯度啦。纯数学方法几乎是不可能的,那么反向...

27210
来自专栏计算机视觉战队

常见的损失函数

一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数...

2933
来自专栏智能算法

从感知机到神经网络简略

最热门的深度学习,想必很多人都想了解学习,网络上也有不少资料;小编也希望可以从头开始,更为透彻地去理解原理机制,这样在日后可以在深度学习框架实战的学习上更为轻松...

3446
来自专栏IT派

无需深度学习框架,如何从零开始用Python构建神经网络

动机:为了深入了解深度学习,我决定从零开始构建神经网络,并且不使用类似 Tensorflow 的深度学习库。我相信,对于任何有理想的数据科学家而言,理解神经网络...

1005
来自专栏JasonhavenDai

统计学习方法之朴素贝叶斯1.概述2.基础知识3.基本方法4.参数估计5.简单实现

1.概述 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计...

3838
来自专栏书山有路勤为径

Recurrent Neural Networks (RNNs)

许多应用涉及时间依赖,或基于时间依赖。这表示我们当前输出不仅仅取决于当前输入,还依赖于过去的输入。 RNN存在一个关键缺陷,因为几乎不可能捕获超过8或10步的...

833
来自专栏目标检测和深度学习

无需深度学习框架,如何从零开始用Python构建神经网络

这是一份用于理解深度学习内部运作方式的初学者指南。作者根据自己从零开始学习用 Python 构建神经网络的经验,编写了一份攻略。内容涵盖神经网络定义、损失函数、...

982
来自专栏企鹅号快讯

机器学习之白话adaboost元算法

阅读本文大约需要5分钟 作为(曾)被认为两大最好的监督分类算法之一的adaboost元算法(另一个为前几节介绍过的SVM算法),该算法以其简单的思想解决复杂的分...

1836
来自专栏机器学习算法全栈工程师

从损失函数的角度详解常见机器学习算法(2)

作者:章华燕 小编:赵一帆 逻辑回归详解 分类是监督学习的一个核心问题,在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以...

3666
来自专栏鸿的学习笔记

LSTMs

由于使用权重矩阵的方式,会对典型RNN可以学习的模式类型存在一些显着的限制。因此,对于称为长短期存储器网络(Long Short-Term Memory net...

891

扫码关注云+社区