前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

作者头像
韩曙亮
发布2023-03-28 20:30:48
3880
发布2023-03-28 20:30:48
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

参考博客 :

一、 贝叶斯分类器分类的流程


已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定

1

个未知样本 , 其有

4

个属性组成向量

\rm X

, 样本的分类有两种 ,

\rm Y

\rm N

; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为

\rm X

向量时 , 分类为

\rm Y

的概率 , 公式为

\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}

, 其中

\rm P(X | Y) P(Y)

含义是 : 样本分类

\rm Y

的概率

\rm P(Y)

, 乘以 样本分类为

\rm Y

前提下样本取值

\rm X

时的概率

\rm P(X | Y)

, 是

\rm P(XY)

共同发生的概率 ;

② 样本取值为

\rm X

向量时 , 分类为

\rm N

的概率 , 公式为

\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}

, 其中

\rm P(X | N) P(N)

含义是 : 样本分类为

\rm N

的概率

\rm P(N)

, 乘以 样本取值

\rm N

时的概率

\rm P(X | N)

, 是

\rm P(XN)

共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 :

\rm P(Y)

,

\rm P(N)

;

后验概率 :

\rm P(X | Y)

,

\rm P(X | N)

;

公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

上述两个公式

\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}

\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}

, 分母都是

\rm P(X)

, 只比较分子即可 , 其中先验概率

\rm P(Y)

,

\rm P(N)

很容易求得 , 重点是求两个后验概率

\rm P(X | Y) P(Y)

,

\rm P(X | N) P(N)

;

后验概率

\rm P(X | Y)

求法 : 针对

\rm X

向量中

4

个分量属性的取值 , 当样品类型是

\rm Y

时 , 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

后验概率

\rm P(X | Y)

再乘以先验概率

\rm P(Y)

, 就是最终的 未知样本分类为

\rm Y

类型的概率 ;

最终对比样本 , ① 未知样本分类为

\rm Y

类型的概率 , ② 未知样本分类为

\rm N

类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、 拉普拉斯修正


在计算后验概率

\rm P(X | Y)

时 , 需要计算出 当样品类型是

\rm Y

时 ,

\rm X

向量的 分量

1

取值为该分量属性时的概率 , 同理计算出

4

个分量属性对应的

4

个概率 , 最后将 四个概率相乘 ;

如果上述

4

个相乘的概率其中有一个是

0

, 那么最终结果肯定就是

0

, 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 ,

9

个样本是购买商品的 , 但年龄都大于

30

, 计算过程如下 ;

\rm P( 年龄小于 30 | Y) = \cfrac{0}{9}

拉普拉斯修正就是分子加

1

, 分母加上样本类型个数

2

; ( 样本有两个类型 ,

\rm Y

购买商品 ,

\rm N

不购买商品 ) ;

\rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}

注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;

具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

三、 贝叶斯分类器示例2


分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄

31..35

, 收入

\rm 41k..45k

,

\rm systems

部门 " 的员工级别 ;

年龄

收入

级别

部门

人数

31..35 31..35 31..35

46 k . . 50 k \rm 46k..50k 46k..50k

s e n i o r \rm senior senior

s a l e s \rm sales sales

30 30 30

26..30 26..30 26..30

26 k . . 30 k \rm 26k..30k 26k..30k

j u n i o r \rm junior junior

s a l e s \rm sales sales

40 \rm 40 40

31..35 31..35 31..35

31 k . . 35 k \rm 31k..35k 31k..35k

j u n i o r \rm junior junior

s a l e s \rm sales sales

40 \rm 40 40

21..25 21..25 21..25

46 k . . 50 k \rm 46k..50k 46k..50k

j u n i o r \rm junior junior

s y s t e m s \rm systems systems

20 \rm 20 20

31..35 31..35 31..35

66 k . . 70 k \rm 66k..70k 66k..70k

s e n i o r \rm senior senior

s y s t e m s \rm systems systems

5 \rm 5 5

26..30 26..30 26..30

46 k . . 50 k \rm 46k..50k 46k..50k

j u n i o r \rm junior junior

s y s t e m s \rm systems systems

3 \rm 3 3

41..45 41..45 41..45

66 k . . 45 k \rm 66k..45k 66k..45k

s e n i o r \rm senior senior

s y s t e m s \rm systems systems

3 \rm 3 3

36..40 36..40 36..40

46 k . . 50 k \rm 46k..50k 46k..50k

s e n i o r \rm senior senior

m a r k e t i n g \rm marketing marketing

10 \rm 10 10

31..35 31..35 31..35

41 k . . 45 k \rm 41k..45k 41k..45k

j u n i o r \rm junior junior

m a r k e t i n g \rm marketing marketing

4 \rm 4 4

46..50 46..50 46..50

36 k . . 40 k \rm 36k..40k 36k..40k

s e n i o r \rm senior senior

s e c r e t a r y \rm secretary secretary

4 \rm 4 4

26..30 26..30 26..30

26 k . . 30 k \rm 26k..30k 26k..30k

j u n i o r \rm junior junior

s e c r e t a r y \rm secretary secretary

6 \rm 6 6

31..35
\rm 46k..50k
\rm senior
\rm sales
30
26..30
\rm 26k..30k
\rm junior
\rm sales
\rm 40
31..35
\rm 31k..35k
\rm junior
\rm sales
\rm 40
21..25
\rm 46k..50k
\rm junior
\rm systems
\rm 20
31..35
\rm 66k..70k
\rm senior
\rm systems
\rm 5
26..30
\rm 46k..50k
\rm junior
\rm systems
\rm 3
41..45
\rm 66k..45k
\rm senior
\rm systems
\rm 3
36..40
\rm 46k..50k
\rm senior
\rm marketing
\rm 10
31..35
\rm 41k..45k
\rm junior
\rm marketing
\rm 4
46..50
\rm 36k..40k
\rm senior
\rm secretary
\rm 4
26..30
\rm 26k..30k
\rm junior
\rm secretary
\rm 6

未知样本 取值

\rm X

向量 为 " 年龄

31..35

, 收入

\rm 41k..45k

,

\rm systems

部门 " ;

未知样本 分类为

\rm senior

( 高级 ) 类型的概率 :

\rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}

未知样本 分类为

\rm junior

( 低级 ) 类型的概率 :

\rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}

上述两个概率的分母

\rm P(X)

是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率

\rm P(senior) = \cfrac{52}{165}

,

\rm P(junior) = \cfrac{113}{165}

,

52

个人是

\rm senior

级别 ,

113

个人是

\rm junior

级别 ;

后验概率

\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年龄 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部门 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array}

上述后验概率的结果为

\rm 0

, 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要

+1

, 分母都需要

+2

, 分母是分类的个数 ,

\rm senior

\rm junior

两个分类 , 因此分母

+2

;

拉普拉斯修正后的结果 :

\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array}

\rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年龄 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部门 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array}

未知样本 分类为

\rm Y

类型的概率 分子 :

\rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006

未知样本 分类为

\rm N

类型的概率 分子 :

\rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024

该样本分类 为

\rm junior

, 是低级员工 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、 贝叶斯分类器分类的流程
  • 二、 拉普拉斯修正
  • 三、 贝叶斯分类器示例2
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档