首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浅谈贝叶斯公式

浅谈贝叶斯公式

作者头像
attack
发布2019-01-30 16:45:59
8590
发布2019-01-30 16:45:59
举报

感觉这玩意儿挺好玩的,顺便填一下以前留下的坑。

有些内容是抄袭的以前的文章,有些是自己瞎编的。

warning:博主并不知道什么叫深度学习/机器学习/AI,只是一个数学爱好者/oier

独立

独立:对于事件\(A\)和\(B\),如果\(P(AB)\)=\(P(A)P(B)\),那么称\(A\)和\(B\)是独立的。

所谓独立,最直观的理解即两事件的结果不会相互影响。

条件概率

如果\(P(B)>0\),那么\(A\)在\(B\)下的条件概率为 \[P(A|B)=\frac{P(AB)}{P(B)}\]

特别的,如果\(A\)与\(B\)独立,那么\(P(A | B) = P(A)\)

同时移项之后我们也会得到一个显然的公式:\(P(AB) = P(A |B) P(B)\),那么同时\(P(AB) = P(B | A) P(A)\)

关于条件概率一种不错的理解方式(引自这里)

条件概率\(P(A | B) = \frac{P(AB)}{P(B)}\)就是紫色部分的面积占右边整个圆圈的比例

贝叶斯公式

对于事件\(A\)和\(B\),如果\(P(A)>0\)且\(P(B)>0\),那么

\[P(A|B)=\frac{P(B\mid A)P(A)}{P(B)}\]

这个公式的证明是显然的,我们直接把推导的第二个公式带入条件概率公式即可

观察一下这个公式,我们实际上有四个未知量(左\(1\)右\(3\)),而在题目中往往会告诉我们\(P(AB)\)或\(P(B | A)P(A)\),此时我们还需要求解\(P(B)\)

但是\(P(B)\)的决定因素可能不止与一个事件有关(这里可能有些抽象,等下会有例子。)

这里我们会用到全概率公式

全概率公式

如果样本空间可以被划分为两两互斥的若干部分\(A_1,\ldots,A_k\),那么 \[P(B)=\sum_{i=1}^{k}P(B\mid A_i)P(A_i)\]

举个例子,样本空间被划分成了\(A\)和\(A'\),此时我们可以用全概率公式来计算\(B\)事件发生的概率

\(P(B) = P(B | A) P(A) + P(B | A') P(A')\)

这个公式可以用来处理\(P(B)\)不好直接计算的情况

现在回过头来,我们把全概率公式回带到贝叶斯公式中,我们就得到了一种船新的表示形式

如果我们得到了样本空间的一个划分\(A_1,\ldots,A_k\),结合全概率公式,对于任意\(1\leq i\leq k\)有

\[P(A_i\mid B) = \frac{P(B\mid A_i)P(A_i)}{\sum_j P(B\mid A_j)P(A_j)} \]

下面来看两道水题

例题

垃圾邮件识别

(题目是我自己xjb起的)

Descripiton

一个用户所有邮件分为两类:\(A_1\)代表垃圾邮件, \(A_2\)代表非垃圾邮件

根据经验,\(P(A_1) = 0.7\), \(P(A_2) = 0.3\)。

令\(B\)表示邮件包含“免费”这一关键词,由历史邮件得知, \(P(B|A_1) = 0.9\),

\(P(B|A_2) = 0.01\)(注意:它们之和并不一定等于\(1\))。

问若收到一封新邮件,包含了“免费”这一关键字,那么它是垃圾邮件的概率是多少

Solution

题目要求的实际是\(P(A_1|B)\)

根据条件概率公式

\[P(A_1|B)=\frac{P(A_1|B)}{P(B)}\]

转换为贝叶斯公式

\[P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B)}\]

将分式底下\(P(B)\)这一项用全概率公式展开

\[P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)}\]

然后就可以算了

\[P(A_1|B)=\frac{0.9*0.7}{0.9*0.7+0.01*0.3}\]

\[\approx 0.995260663507109004739336492891 \% \]

好恐怖。。

次品识别问题

(也是我自己xjb起的)

Description

例1设某工厂有甲、乙、丙三个车间,生产同一种产品,已知各车间的产量分别占全厂产量的\(25 \%, 35 \%, 40 \%\),而且各车间的次品率依次为\(5 \%,4 \%, 2 \%\).现从待出厂的产品中检查出一个次品,试判断它是由甲车间生产的概率

Solution

设\(P(A_i)\)表示是由第\(i\)个车间生产的概率,\(P(B)\)表示生产出次品的概率,直接带入公式算即可

\(P(A_1 | B) = \frac{P(B | A_1)}{P(B | A_1)P(A_1) + P(B | A_2)P(A_2) + P(B | A_3) P(A_3}\)

\(P(A_1 | B) = \frac{0.25 * 0.05}{0.25 * 0.05 + 0.35 * 0.04 + 0.4 * 0.02} \approx 0.36231\)

总结

通过以上瞎扯不难看出,贝叶斯公式在一类"逆概率"问题中比较常用,按理说应该是非常常见的概率只是,但是我还真没找到几道正经的OI题qwq

而且本文章中没有出现“先验概率”“后验概率”“似然函数”等字眼,原因是因为博主太菜了根本不知道怎么去解释。。

这篇文章只是从最简单的理论层面列出了几个公式,有兴趣的大佬可以深入学习

参考资料

《浅析信息学竞赛中概率论的基础与应用》——2013年胡渊明国家集训队论文

怎样用非数学语言讲解贝叶斯定理(Bayes's theorem)?

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019-01-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 独立
  • 条件概率
  • 贝叶斯公式
    • 全概率公式
    • 例题
      • 垃圾邮件识别
        • Descripiton
        • Solution
      • 次品识别问题
        • Description
        • Solution
    • 总结
    • 参考资料
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档