前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >聚类算法简析(一):朴素贝叶斯算法

聚类算法简析(一):朴素贝叶斯算法

作者头像
木野归郎
发布2020-06-15 14:46:33
6530
发布2020-06-15 14:46:33
举报
文章被收录于专栏:share ai happinessshare ai happiness

朴素贝叶斯算法常用于分类与预测的问题,比如给一个1000本书进行分类,可以分为文学类,管理类,技术类,教育类等等,即算法得到的结果是一组离散的代表类别的数据。比如,预测一株很美的植物,在不同的地理环境,如吉林,北京,广州,深圳,大理,不同的地点,在不同的日照和阳光强度下,这株植物会生存下来吗?是的这是个概率问题。

朴素贝叶斯的原理及理解

学习贝叶斯之前,我们了解下条件概率的概念

条件概率:事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”,看下下边的这张图:

根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是P(A∩B)除以P(B)。

P(A|B)=P(A∩B)/P(B)

因此,P(A∩B)=P(A|B)P(B)

所以,P(A|B)P(B)=P(B|A)P(A)

即:P(A|B)=P(B|A)P(A)/P(B) — — — 公式(一)

没错,公式(一):P(A|B)=P(B|A)P(A)/P(B) 就是贝叶斯定理

关于贝叶斯定理,一个简单的应用示例

女孩子都喜欢买衣服,我也是个女孩子,一样也很喜欢,就举个买衣服的例子吧。

下面有一组衣服的数据,我们来预测下,这位顾客可能更喜欢哪个类型的衣服

首先,先来计算下顾客购买与不购买的概率:

购买的衣服总数为6,衣服的总数为10,那么顾客购买衣服的概率为:

P(A1) = 6/10.0

不购买衣服的总数为4,衣服的总数为10,那么顾客不购买衣服的概率为:

P(A2) = 4/10.0 或 P(A2) = 1 - P(A1) = 1 - (6/10.0)

下面分别来计算下,在顾客购买的情况下,各类情况下的概率:

顾客购买,品牌为ONLY的条件概率:

购买的衣服中,为ONLY的个数为2,购买衣服的总数为6,衣服的总数为10,则品牌为ONLY顾客购买的条件概率为:

P(B1|A1) = 2 / 6.0

在总样本中,衣服为ONLY概率为:

P(B1) = 5 / 10.0

同理可以计算出:

品牌为森马,顾客购买的条件概率为:

P(B2|A1) = 4 / 6.0

在总样本中,衣服为森马的概率为:

P(B2) = 5 / 10.0

颜色为蓝色,顾客购买的条件概率为:

P(C1|A1) = 5 / 6.0

在总样本中,衣服为蓝色的概率为:

P(C1) = 5 / 10.0

顾客购买时,衣服为粉色的条件概率:

P(C2|A1) = 1 / 6.0

在总样本中,衣服为粉色的概率:

P(C2) = 5 / 10.0

顾客购买时,衣服的材质为纯棉的条件概率:

P(D1|A1) = 4 / 6.0

在总样本中,衣服为纯棉材质的概率:

P(D1) = 5 / 10.0

顾客购买时,衣服的材质为竹纤维的条件概率:

P(D2|A1) = 1 / 6.0

在总样本中,衣服为竹纤维材质的概率:

P(D2) = 5 / 10.0

现在应用贝叶斯定理,来做一个小小的预测:

顾客更喜欢购买下面哪一个产品:品牌为:ONLY、颜色为:蓝色、材质为:纯棉 与 品牌为:森马、颜色为:蓝色、材质为:竹纤维,哪一个产品?

我们计算下

P(A1|ONLY、蓝色、纯棉)

= ((P(B1|A1) * P(C1|A1) * P(D1|A1) )* P(A1) ) /( P(B1) * P(C1) * P(D1) )

=[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]

P(A1|森马、蓝色、竹纤维)

= ( P(B2|A1) * P(C1|A1) * P(D2|A1))* P(A1) ) /( P(B2) * P(C1) * P(D2) )

= [ ((4 / 6.0)* (5/6.0)* (1 / 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]

我们来比较下两种商品购买的概率:

[ ((2/6.0)* (5/6.0)* (4/6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]

[ ((4 / 6.0)* (5/6.0)* (1/ 6.0)) * (6/10.0)] / [(5 / 10.0) * (5 / 10.0) * (5 / 10.0)]

分母相同,分子偏大的结果更大,那么后者更大,所以我们推断,在纯棉蓝色ONLY家的连衣裙比竹纤维蓝色森马家的连衣裙更受顾客青睐,顾客购买前者的概率更大。细心的同学可能会发现,顾客不太喜欢竹纤维材质的连衣裙,因为影响分母结果的是这一项。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OnlyCoding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档