前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

【数据挖掘】数据挖掘总结 ( 贝叶斯分类器示例 ) ★

作者头像
韩曙亮
发布2023-03-28 20:30:29
2920
发布2023-03-28 20:30:29
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

参考博客 :

一、 贝叶斯分类器分类的流程


已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定

1

个未知样本 , 其有

4

个属性组成向量

\rm X

, 样本的分类有两种 ,

\rm Y

\rm N

; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为

\rm X

向量时 , 分类为

\rm Y

的概率 , 公式为

\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}

, 其中

\rm P(X | Y) P(Y)

含义是 : 样本分类

\rm Y

的概率

\rm P(Y)

, 乘以 样本分类为

\rm Y

前提下样本取值

\rm X

时的概率

\rm P(X | Y)

, 是

\rm P(XY)

共同发生的概率 ;

② 样本取值为

\rm X

向量时 , 分类为

\rm N

的概率 , 公式为

\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}

, 其中

\rm P(X | N) P(N)

含义是 : 样本分类为

\rm N

的概率

\rm P(N)

, 乘以 样本取值

\rm N

时的概率

\rm P(X | N)

, 是

\rm P(XN)

共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 :

\rm P(Y)

,

\rm P(N)

;

后验概率 :

\rm P(X | Y) P(Y)

,

\rm P(X | N) P(N)

;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式

\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}

\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}

, 分母都是

\rm P(X)

, 只比较分子即可 , 其中先验概率

\rm P(Y)

,

\rm P(N)

很容易求得 , 重点是求两个后验概率

\rm P(X | Y) P(Y)

,

\rm P(X | N) P(N)

;

后验概率

\rm P(X | Y)

求法 : 针对

\rm X

向量中

4

个分量属性的取值 , 当样品类型是

\rm Y

时 , 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

后验概率

\rm P(X | Y)

再乘以先验概率

\rm P(Y)

, 就是最终的 未知样本分类为

\rm Y

类型的概率 ;

最终对比样本 , ① 未知样本分类为

\rm Y

类型的概率 , ② 未知样本分类为

\rm N

类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、 贝叶斯分类器分类示例 1


分类需求 : 根据 年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " 的用户是否会购买商品 ;

年龄

收入水平

是否是学生

信用等级

是否购买商品

小于 30 岁

高收入

不是

一般

不会 N \rm N N

小于 30 岁

高收入

不是

很好

不会 N \rm N N

31 ~ 39 岁

高收入

不是

一般

会 Y \rm Y Y

40 岁以上

中等收入

不是

一般

会 Y \rm Y Y

40 岁以上

低收入

一般

会 Y \rm Y Y

40 岁以上

低收入

很好

不会 N \rm N N

31 ~ 40 岁

低收入

不是

很好

会 Y \rm Y Y

小于 30 岁

中等收入

不是

一般

不会 N \rm N N

小于 30 岁

低收入

一般

会 Y \rm Y Y

40 岁以上

中等收入

一般

会 Y \rm Y Y

小于 30 岁

中等收入

很好

会 Y \rm Y Y

31 ~ 39 岁

中等收入

不是

很好

会 Y \rm Y Y

31 ~ 39 岁

高收入

一般

会 Y \rm Y Y

40 岁以上

中等收入

不是

很好

不会 N \rm N N

\rm N

小于 30 岁高收入不是很好不会

\rm N

31 ~ 39 岁高收入不是一般会

\rm Y

40 岁以上中等收入不是一般会

\rm Y

40 岁以上低收入是一般会

\rm Y

40 岁以上低收入是很好不会

\rm N

31 ~ 40 岁低收入不是很好会

\rm Y

小于 30 岁中等收入不是一般不会

\rm N

小于 30 岁低收入是一般会

\rm Y

40 岁以上中等收入是一般会

\rm Y

小于 30 岁中等收入是很好会

\rm Y

31 ~ 39 岁中等收入不是很好会

\rm Y

31 ~ 39 岁高收入是一般会

\rm Y

40 岁以上中等收入不是很好不会

\rm N

未知样本 取值

\rm X

向量 为 " 年龄小于 30 岁 , 收入中等 , 学生 , 信用等级一般 " ;

未知样本 分类为

\rm Y

类型的概率 :

\rm P(Y | X) = \cfrac{P(X|Y) P(Y)}{P(X)}

未知样本 分类为

\rm N

类型的概率 :

\rm P(N | X) = \cfrac{P(X|N) P(N)}{P(X)}

上述两个概率的分母

\rm P(X)

是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率

\rm P(Y) = \cfrac{9}{14}

,

\rm P(N) = \cfrac{5}{14}

,

9

个人购买商品 ,

5

个人没有购买商品 ;

后验概率

\rm \begin{array}{lcl} \rm P(X|Y) &=& \rm P( 年龄小于 30 | Y) \times P( 收入中等 | Y) \times P( 是学生 | Y) \times P( 信用等级一般 | Y) \\\\ &=& \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \\ \end{array}

\begin{array}{lcl} \rm P(X|N) &=& \rm P( 年龄小于 30 | N) \times P( 收入中等 | N) \times P( 是学生 | N) \times P( 信用等级一般 | N) \\\\ &=& \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \cfrac{2}{5} \\\\ \end{array}

未知样本 分类为

\rm Y

类型的概率 分子 :

P(X|Y) P(Y) = \cfrac{2}{9} \times \cfrac{4}{9} \times \cfrac{6}{9} \times \cfrac{6}{9} \times \cfrac{9}{14} \approx 0.0282186948853616

未知样本 分类为

\rm N

类型的概率 分子 :

P(X|N) P(N) = \cfrac{3}{5} \times \cfrac{2}{5} \times \cfrac{1}{5} \times \frac{2}{5} \times \cfrac{5}{14} \approx 0.0068571428571429

该样本分类 为

\rm Y

, 会购买商品 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、 贝叶斯分类器分类的流程
  • 二、 贝叶斯分类器分类示例 1
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档