朴素贝叶斯详解

总第78篇

一、统计知识

01|随机事件:

1、概念

随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…}

随机事件中的事件形式可能由各种形式,比如{"正面","反面"},{"优","良","差"}。

2、条件概率

P(A|B)=P(AB)/P(B)表示在事件B发生的情况下事件A发生的概率。

3、一些性质

概率的有限可加性:若事件A1、A2、......、Ai.....、Aj这些事件两两互斥,则P(∑Ai)=∑P(Ai),表示所有事件发生的概率等于各个事件发生的概率之和。

概率的乘法公式:P(AB)=P(A)P(B|A)=P(B)P(A|B)。若事件A与B相互独立,则P(AB)=P(A)P(B),推广到有限多个事件时可表示为:P(A1A2A3.....An)=P(A1)P(A2|A1)P(A3|A1A2)......P(An|A1A2......An-1)。

4、全概率公式

对于比较复杂的概率事件的计算,经常会把它分解成若干个简单事件的和,通过分别计算这些简单事件的概率,然后利用概率的可加性计算出所求事件的概率。假设事件A1、A2、......、An是Ω的一个划分,即两两互斥,且

∑Ai=Ω,则B=B∑Ai,再由概率的有限可加性得,P(B)=P(B∑Ai)=P(∑BAi)。

再由概率得乘法公式得P(B)=P(∑BAi)=∑P(Ai)P(B|Ai),这就是全概率公式。

5、贝叶斯公式

假设事件A1、A2、......、An是Ω的一个划分,B=B∑Ai=∑BAi,则B发生条件下Ai发生得概率为:P(Ai|B)=P(AiB)/P(B)。由乘法公式和全概率公式得P(Ai|B)=P(Ai)P(B|Ai)/∑P(Ai)P(B|Ai)。该公式就是贝叶斯公式。

02|一维随机变量:

1、概念

一般意义上概率是针对于某一随机事件而言得,为更深入得研究随机试验得结果,我们引入随机变量得概念,随机变量得基本思想是把随机试验的结果数量化,从而可用一个变量去描述随机事件。对于随机事件中出现的某一事件我们用变量的形式去表示。比如{"正面","反面"}可以表示为{1,0},{"优","良","差"}可以表示为{1,2,3}。

2、随机变量分布

假设X是一随机变量,他可能取值为X1,X2,....,Xk,并且取各个值对应的概率分别为P1,P2,......Pk,即P(X=Xk)=Pk,K=1,2,....,该式称为随机变量X的概率分布。

03|多维随机变量:

1、概念

通过随机变量来描述某一随机事件时,有时候仅用一个维度上的变量去表示是不够的,比如描述平面的某一个点的位置就需要用X,Y两条轴(即两个维度)去表示才可以,如果是描述空间中某个点可能需要X,Y,Z三个维度去表示才可以,我们把一个随机变量需要从n个维度去表示的变量称为n维随机变量。

一般地,当n=2时,称(X,Y)为二维随机变量,二维随机变量的联合分布为:

F(x,y)=P(X≤x,Y≤y),其中P(X≤x,Y≤y)表示随机事件{X≤x},{Y≤y}同时发生的概率。

若事件X与Y相互独立,则P(X≤x,Y≤y)=P(X≤x)P(Y≤y)。

条件分布:P(X≤x|Y≤y)=P(X≤x,Y≤y)/P(Y≤y)。

二、算法知识

01|原理:

朴素贝叶斯算法就是根据贝叶斯公式来对未知事物进行分类,通过已知条件(X=x)计算未知事物分别属于各个类别(Y=ck)时对应的概率,然后把未知事物判别为概率最大的那一类。

贝叶斯公式:P(Y=ck|X=x)=P(Y=ck)P(X=x|Y=ck)/∑P(Y=ck)P(X=x|Y=ck)。

02|学习过程:

我们要想计算出未知事物属于哪一个类别的概率较大,即P(Y=ck|X=x)在x等于多少时概率最大,需要先算出P(Y=ck)和P(X=x|Y=ck)。这两个值可以通过训练集求得。在具体的求取过程中需要用到一种估计方法就是极大似然估计

极大似然估计是一种概率论在统计中的应用,说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值,一般把这个结果作为估计值。

在这里我们用极大似然估计的方法来给P(Y=ck)以及P(X=x|Y=ck)估值,把训练集中的所有值当成是若干次试验以后得到的结果,利用极大似然估计的思想,则P(Y=ck)=该类别的频数/集合总数。P(Y=ck)=∑I(Y=ck)/N,k=1,2,...,K, 

N为集合总数。

P(X=x|Y=ck)=ck类下满足条件x的值的频数/属于ck类值的总数。

P(X=x|Y=ck)=∑I(X=x,Y=ck)/∑I(Y=ck),k=1,2,....,K

上面的I为指示函数,是定义在某一集合X上的函数,表示其中有哪些元素属于某一子集A,常用于次数的统计,即满足某一条件的个数。

预估出P(Y=ck)和P(X=x|Y=ck)的值以后,我们就可以利用贝叶斯公式对在X=x的条件下P(Y=ck|X=x)对应的分类是哪一类。


上面的学习过程都只是针对于一维变量进行求取的,在实际的算法应用中,往往是多维的,即多个特征,于是乎:P(X=x|Y=ck)=P(X=x1,X=x2,...,X=xi|Y=ck),xi表示变量x的第i个特征

P(X=x|Y=ck)=P(X=x1,X=2,...,X=xi|Y=ck)=P(X=x1,X=2,...,X=xi)/P(Y=ck)

因为朴素贝叶斯对条件概率做了独立性假设,所以P(X=x1,X=x2,...,X=xi)/P(Y=ck)=P(X=x1)P(X=x2)...P(X=xi)/P(Y=ck)=

∏P(X=xi|Y=ck)

将上式代入贝叶斯公式中可得出:

P(Y=ck|X=x)=P(Y=ck)∏P(X=xi|Y=ck)/∑P(Y=ck)∏P(X=xi|Y=ck),因为分母∑P(Y=ck)∏P(X=xi|Y=ck)对每个分类ck来说,其值都是相等的,而我们最后是要比较每个ck对应的P(Y=ck|X=x)的大小,所以可以把分母去掉,最后学习到的模型为:y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)。(其中∏P(X=xi|Y=ck)需要让i取不同的值(即不同的特征)然后用极大似然估计去估计。)

03|测试过程:

将测试数据集代入到学到的模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)然后看不同分类所对应的概率,选择概率最大的分类为待测数据的分类。然后判断其预测的准确性。

04|贝叶斯估计:

在前面我们估计P(Y=ck)和P(X=x|Y=ck)的值的时候用的是极大似然估计,使用这种方法很有可能出现估计值为0的情况,因为有些特征可能不存在,所以其概率为0,但是P(X=x|Y=ck)=∏P(X=xi|Y=ck),只要有一个特征为0,整个P(X=x|Y=ck)就会为0,这将影响到后续的概率计算,所以这种估计方法有的时候是行不通的,我们需要换另外的估计方法,就是贝叶斯估计。

K为类的个数。

Lj是第j维特征的最大取值。

贝叶斯估计是在极大似然估计的基础上给分子分母分别加一个常数,当λ=1时称为拉普拉斯平滑。

05|利用python对留言性质进行判断:

本实例以及代码均来自于书籍《机器学习实战》第4章。

1、背景

某社区为了屏蔽掉一些侮辱性留言,需要构建一个快速过滤器,只要某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。

2、准备数据

3、数据处理

4、计算先验概率

5、调试算法

在前面我们讲过采用极大似然估计中可能会出现概率为0的情况,在上面的结果代码中我们也可以看出,确实有一些结果为0的概率,为了避免这种情况,我们将采用拉普拉斯平滑。

6、应用算法

最后就可利用模型y=f(x)=P(Y=ck)∏P(X=xi|Y=ck)对具体某一条留言的是否包含侮辱性评论进行判断了。

本文分享自微信公众号 - 张俊红(zhangjunhong0428)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

从零开始学Python26-Logistic回归

在《从零开始学Python【20】--线性回归(理论部分)》和《从零开始学Python【24】--岭回归及LASSO回归(理论部分)》我们已经详细介绍了线性回归...

23770
来自专栏用户2442861的专栏

SIFT算法详解

如果你学习SIFI得目的是为了做检索,也许 OpenSSE 更适合你,欢迎使用。

91410
来自专栏机器之心

入门 | 从感知机到深度神经网络,带你入坑深度学习

30360
来自专栏量子位

深度学习入门:几幅手稿讲解CNN

作者:岳翰 电子科技大学|数学科学学院 来源自 JohnHany的博客 量子位 已获授权编辑发布 学习深度神经网络方面的算法已经有一段时间了,对目前比较经典的模...

40960
来自专栏量化投资与机器学习

【Python机器学习】系列之线性回归篇【深度详细】

谢谢大家的支持!现在该公众号开通了评论留言功能,你们对每篇推文的留言与问题,可以通过【写评论】给圈主留言,圈主会及时回复您的留言。 本次推文介绍用线性模型处理回...

1.2K90
来自专栏IT派

CNN入门再介绍

导语:学习深度神经网络方面的算法已经有一段时间了,对目前比较经典的模型也有了一些了解。这种曾经一度低迷的方法现在已经吸引了很多领域的目光,在几年前仅仅存在于研究...

39440
来自专栏文武兼修ing——机器学习与IC设计

SSD目标检测系统系统结构网络训练

SSD识别系统也是一种单步物体识别系统,即将提取物体位置和判断物体类别融合在一起进行,其最主要的特点是识别器用于判断物体的特征不仅仅来自于神经网络的输出,还来自...

49240
来自专栏数据派THU

独家 | 一文为你解析神经网络(附实例、公式)

原文标题:Introduction To Neural Networks 作者:Ben Gorman 翻译:申利彬 校对:和中华 本文长度为4000字,建议阅读...

26950
来自专栏SIGAI学习与实践平台

深入浅出聚类算法

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的。

25400
来自专栏Petrichor的专栏

深度学习: 激活函数 (Activation Functions)

激活函数(activation function)层又称 非线性映射 (non-linearity mapping) 层,作用是 增加整个网络的非线性(即 表达...

99530

扫码关注云+社区

领取腾讯云代金券