全概率公式和贝叶斯公式

在我目前学到的概率论中,有两个相当重要的公式——全概率公式和贝叶斯公式,但是很多同学可能对这两个公式感到非常迷茫。一是不知道公式背后的意义所在,二是不知道这些公式有什么现实应用。

一、全概率公式

在讲全概率公式之前,首先要理解一个概念“完备事件组”.

我们将满足 $B_iB_j = \emptyset (i≠j)$,$B_1 + B_2 +… = Ω$,这样的一组事件称为一个“完备事件组”。简言之,所有的事件两两互斥,所有事件的并集是整个样本空间.

假设我们要研究事件$A$,我们希望能够求出$P(A)$,但是经过一番探索,却发现$P(A)$本身很难直接求出,不过却能够比较容易地求出各个$P(B_i)$,以及相应的条件概率$P(A|B_i)$。我们现在希望通过这些信息,间接的求出$P(A)$.

这当然可以,别忘了$B_i$是两两互斥的,即$A = AΩ = AB_1 + AB_2 + …$,显然,$AB_1,AB_2,AB_3,…$也是两两互斥的,那么上述式子就可以加上概率符号变为:$P(A) = P(AΩ) = P(AB_1 + AB_2 + …) = A(AB_1)+P(AB_2)+P(AB_3)+…$,我们看每一项$ \sum_{i = 1}^n P(AB_i)$其实利用概率的乘法公式,不就可以变为了$\sum_{i = 1}^n P(B_i)P(A|B_i)$吗,最终我们就推导出了全概率公式:

用图表示可能更好理解,$P(A)$本身并不好求,但我们可以根据他散落的“碎片”间接地将其求出。但不是所有的情况都能这样求出——必须保证$B_1,B_2,…$是一个完备事件组。这个其实很好理解,假如你想将一个碎掉的花瓶重新还原,碎片不全或者碎片之间出现了多余的“重叠”,还原工作都将以失败告终.

下面我们来看一个比较经典的例题.

某地盗窃风气盛行,且盗窃者屡教不改,我们根据以往的案件记录,推断出A今晚作案的概率是0.8,B今晚作案的概率是0.1,C今晚作案的概率是0.5,除此之外,还推断出A的得手率是0.1,B的得手率是1.0,C的得手率是0.5.那么今晚有东西被偷的概率是多少?

题目我们已经知道了,但是如何下手呢?我在上一篇文章中说到了,先“设事件”,不论怎么样,先把事件设出来,这样条理比较清楚.

设:$A:A$今晚作案;$B:B$今晚作案;$C:C$今晚作案;$S:$今晚有东西被偷

则:$P(A) = 0.8,P(B) = 0.1,P(C) = 0.5$

$P(S|A) = 0.1,P(S|B) = 0.7,P(S|C) = 0.2$

那么所求的$P(S) = P(A)P(S|A) + P(B)P(S|B) + P(C)P(S|C) = 0.25$

看来今晚被偷的可能性比较小.

二、贝叶斯公式

有了前面的基础,我们现在先直接给出贝叶斯公式:

这个公式本身平平无奇,无非就是条件概率的定义加上全概率公式一起做出的一个推导而已(分子由乘法公式推出,分母由全概率公式推出)。但它所表达的意义却非常深刻.

在全概率公式中,如果将$A$看成是“结果”,$B_i$看成是导致结果发生的诸多“原因”之一,那么全概率公式就是一个“原因推结果”的过程。但贝叶斯公式恰恰相反。贝叶斯公式中我们知道$A$已经发生了,所要做的是反过来研究造成结果发生的原因,该原因造成的可能性有多大,即“结果推原因”

举个例子:

假设某种病菌在人口中的带菌率为0.03,由于技术落后等等原因,使得带菌者有时未被检测出阳性反应,不带菌者也可能会被检测出阳性反应。有如下数据:

    $A:$这个人带菌,$B:$检测结果为阳性.

$P(B|A) = 0.99$,$P(\bar B|A) = 0.01$,$P(B|\bar A) = 0.05$,$P(\bar B|\bar A) = 0.95$

结果竟然连40%都没有,问题出在哪里?我们没有注意到,带菌率低到只有0.03,甚至比误检率还要低。也就是说,在一大批人里可以检查出一堆阳性的,而这堆阳性的人里面真正带菌的,也只是一小部分而已.

总结一下

全概率公式和贝叶斯公式是正好相反的两个求概率的公式

全概率公式用于求最后的结果概率,贝叶斯公式应用于已知最后结果,求原因的概率.

建议在做题的时候,如果遇到贝叶斯公式的问题,先把完备事件组画在旁边.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

利用机器学习进行恶意代码分类

5214
来自专栏机器之心

资源 | 用Python和NumPy学习《深度学习》中的线性代数基础

2213
来自专栏ATYUN订阅号

如何为地图数据使用tSNE聚类

在本文中,我会展示如何在经纬度坐标对上使用tSNE来创建地图数据的一维表示。这种表示有助于开发新的地图搜索算法。这对于诸如“这个经纬度坐标是新泽西或者纽约的吗?...

1113
来自专栏WOLFRAM

Wolfram 语言与计算型显微镜

1464
来自专栏Pytorch实践

简单的搜索引擎搭建

2257
来自专栏本立2道生

伪随机数生成算法

伪随机数生成算法在计算机科学领域应用广泛,比如枪击游戏里子弹命中扰动、数据科学里对样本进行随机采样、密码设计、仿真领域等等,背后都会用到伪随机数生成算法。

2022
来自专栏玉树芝兰

如何用 Python 和深度迁移学习做文本分类?

在《如何用 Python 和 fast.ai 做图像深度迁移学习?》一文中,我为你详细介绍了迁移学习给图像分类带来的优势,包括:

1532
来自专栏AI研习社

利用摇滚乐队学习TensorFlow,Word2Vec模型和TSNE算法

学习“TensorFlow方式”来构建神经网络似乎是开始机器学习的一大障碍。在本教程中,我们将一步一步地介绍使用Kaggle的Pitchfork数据构建Band...

1192
来自专栏PaddlePaddle

技术流|五分钟带你鉴别垃圾邮件

1)邮件样本广告邮件,保存为典型的Spam,分为元数据(发信方、书信方、编码格式等)和正文,提炼代表垃圾邮件的关键词

971
来自专栏PPV课数据科学社区

【学习】SPSS聚类分析:用于筛选聚类变量的一套方法

聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分...

3817

扫码关注云+社区