前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★

【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★

作者头像
韩曙亮
发布2023-03-28 20:30:12
1.1K0
发布2023-03-28 20:30:12
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

参考博客 :

一、 贝叶斯分类器


1 . 贝叶斯分类器 :

① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;

② 性能分析 : 朴素贝叶斯 分类器 , 与 决策树 , 神经网络 分类器 性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;

2 . 贝叶斯分类器的类型 :

① 朴素贝叶斯分类器 : 样本属性都是独立的 ;

② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;

3 . 正向概率 与 逆向概率 :

① 正向概率 : 盒子中有

\rm N

个白球 ,

\rm M

个黑球 , 摸出黑球的概率是

\rm \cfrac{M}{N + M}

;

② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出

\rm X

个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;

4 . 贝叶斯公式 : 有两个事件 , 事件

A

, 和事件

B

;

公式 1

\rm P ( B | A ) = \frac{P ( A | B ) \times P ( B ) }{ P ( A | B ) \times P ( B ) + P ( A | \sim B ) \times P ( \sim B ) }

简写形式 :

公式 2

\rm P ( B | A ) = \frac{P ( AB )}{P ( A )}

公式 3

\rm P(B|A) = \frac{P(B) \times P(A|B)}{P(A) }

① 事件

A

发生的概率 : 表示为

\rm P(A)

;

② 事件

B

发生的概率 : 表示为

\rm P(B)

;

A B

两个事件同时发生的概率 : 表示为

\rm P(A,B)

;

④ 事件

A

发生时

B

发生的概率 : 表示为

\rm P(B | A)

;

⑤ 事件

B

发生时

A

发生的概率 : 表示为

\rm P(A | B)

;

二、 贝叶斯分类器处理多属性数据集方案


1 . 多属性特征 : 如果要处理的样本数据的特征有

n

个属性 , 其取值

\rm \{X_1 , X_2 , \cdots , X_n\}

组成了向量

\rm X

;

2 . 后验概率 : 计算最终分类为

\rm C_1

时 , 多个属性的取值为

\rm X

向量的概率 , 即

\rm P(X | C_1)

3 . 朴素贝叶斯由来 : 朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率 ;

4 . 计算单个分类概率 : 分类为

\rm C_1

\rm n

个属性每个取值取值概率 :

当最终分类为

\rm C_1

时 , 第

1

个属性取值

\rm X_1

的概率为

\rm P(X_1 | C_1)

;

当最终分类为

\rm C_1

时 , 第

2

个属性取值

\rm X_2

的概率为

\rm P(X_2 | C_1)

;

\vdots

当最终分类为

\rm C_1

时 , 第

\rm n

个属性取值

\rm X_n

的概率为

\rm P(X_n | C_1)

;

最终分类为

\rm C_1

时 ,

\rm n

个属性取值

\rm X

向量的概率 :

\rm P(X|C_1) = \prod_{k=1}^n P( X_k | C_1 )

5 . 多属性分类概率总结 : 分类为

\rm C_i

\rm n

个属性取值

\rm X

向量的概率为 :

\rm P(X|C_i) = \prod_{k=1}^n P( X_k | C_i )

6 . 上述公式中的分类属性

\rm P( X_k | C_i )

计算方式 : 如果第

\rm k

个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :

\rm P( X_k | C_i ) = \frac{S_{ik}}{S_i}
\rm S_i

是分类为

\rm C_i

类型的数据集样本个数 ;

\rm S_{ik}

是被分类成

\rm C_i

类型的样本中 , 并且第

\rm k

个值是

\rm X_k

的样本个数 ;

7 . 样本分类 :

① 样本 : 给出未知属性类型样本 , 其

\rm n

个已知的属性取值为

\rm X

向量 ;

② 分类个数 : 其根据分类属性可能分为

\rm m

类 ;

③ 分类 : 求其取值为

\rm X

向量时 , 分类为

\rm C_i

的概率 , 哪个概率最大 , 其被分为哪个

\rm C_i

类型 , 表示为

\rm P(C_i | X) = \frac{P(X | C_i) P(C_i)}{P(X)}

④ 后验概率 : 多属性取值为

X

向量时 , 分类为

\rm C_i

的概率进行比较 , 分母都是

\rm P(X)

, 是一个常数 , 可以不考虑这种情况 , 只比较

\rm P(X | C_i) P(C_i)

值的大小 ,

\rm P(X | C_i) P(C_i)

值最大的情况 , 就是分类的目标分类

\rm C_i

, 也就是后验概率 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、 贝叶斯分类器
  • 二、 贝叶斯分类器处理多属性数据集方案
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档