01
条件概率
在某个美丽的校园里,小扎喜欢上了班花小美,暗恋了很久终于想鼓起勇气追小美。
但是小扎知道自己长得不帅,不是富二代,成绩也不是很好,追小美这件事,小扎在心里估算了下,成功率大概只有5%,也就是P(追上小美)= 5%,心疼小扎一秒钟。
新学期到了,班主任说大家要重新调座位了,这次为了促进男女同学互相好好学习,特地安排男女同学一起坐。很多男同学表面上不乐意,心里乐开了花。小扎立马算算了,和班花小美同桌的概率大概是P(和小美同桌)= 10%。
过了几天,班主任果然把小扎和小美安排坐在了一起,小扎难掩内心的激动,对追上小美的信心大增,重新评估了追上小美的概率为30%。
在某个特定条件下的概率为条件概率
表示为P(追上小美 | 和小美同桌)= 30%
即在和小美同桌的前提条件下,追上小美的概率是30%,这里和小美同桌就是追上小美的条件概率。
小扎原来追上小美的概率是P(追上小美)= 5%,但是和小美成为同桌后,近水楼台先得月,追上小美的概率就变成P(追上小美 | 和小美同桌)= 30%,大大提高了概率。
条件概率对事件的影响很大,某件事情本来概率很低,但是具备了某个条件后就很可能会发生。
同样的原来的大概率的事件,在发生了某件事后,也可能就不会发生了。
了解条件概率,对我们的认知很重要,有些事情看似不可能,但是具备了一定的条件之后,概率就大大增加了。
如下图,事件B发生的概率本来比较小,但是事件A发生了以后,事件B的概率随着新近出现的事件A而发生改变了,事件B的概率重新评估后,变大了。
我们的观点应该随着新近出现的事实而发生改变。
02
贝叶斯公式
我们知道了P(追上小美 | 和小美同桌)的概率,但是如果我们要算P(和小美同桌 | 追上小美)的概率该怎么算呢?就是小扎先追上小美,然后小扎再和小美同桌的概率?
我们先看一下,如果要让追上小美,和小美同桌两件事同时发生需要怎么做?
P(追上小美 ,和小美同桌)代表追上小美 ,和小美同桌这两件事同时发生的概率。
我们可以分两步看
P(追上小美 ,和小美同桌)=
P(和小美同桌)* P(追上小美 | 和小美同桌)
换一种视角
P(追上小美 ,和小美同桌)=
P(追上小美)* P(和小美同桌 | 追上小美)
可以简单的推导一下:
P(和小美同桌)* P(追上小美 | 和小美同桌)
= P(追上小美 ,和小美同桌)
= P(追上小美)* P(和小美同桌 | 追上小美)
于是就有:
P(追上小美)* P(和小美同桌 | 追上小美)= P(和小美同桌)* P(追上小美 | 和小美同桌)
等式两边都除以P(追上小美)得到:
P(和小美同桌 | 追上小美) =
P(和小美同桌)* P(追上小美 | 和小美同桌)/ P(追上小美)
我们令
A = 和小美同桌
B = 追上小美
代入上面的公式就得到了著名的贝叶斯公式:
贝叶斯公式有什么用呢?
一般来讲P(A)和P(B)的概率是比较容易得到的,P(A|B)和P(B|A)的概率,有一个是比较容易得到的,另一个比较难得到。
贝叶斯公式最大用处就是通过容易得到的概率去计算那个比较难得到的概率。
上面的例子中, P(追上小美 | 和小美同桌)即先和小美同桌然后追上小美的概率相对比较容易得到,毛估估算了一下,大概是30%。
但是 P(和小美同桌 | 追上小美)即先追上小美,然后和小美同桌的概率就相对来说比较难猜了,我们代入公式算一下:
P(和小美同桌 | 追上小美) =
P(追上小美 | 和小美同桌)* P(和小美同桌) / P(追上小美) = 0.3 * 0.1 / 0.05 = 0.6 = 60%
这个概率蛮高的哟,有没有出乎你的意外?
不过这个概率的前提条件是先追上小美,由于追上小美的概率比较低只有5%,其实这里的60%和追上小美的概率综合一下,两件事同时发生的概率也不高。
当然,上面的例子是我瞎扯的,举个现实中的例子。
艾滋病的检测准确率为99.9%,即艾滋病患者有99.9%会检验出阳性,只有0.01%的正常人会误诊为阳性,这个准确率很高了。
假设中国的艾滋病发病率为1/10000,即万分之一。
现在我们要算一下,检验出阳性后是艾滋病的概率是多少?
我们先猜猜看,既然检测的准确率为99.9%这么高,那么检测出阳性后,大概率应该就是艾滋病了吧?结果可能会让你大跌眼镜,毕竟直觉还是很不靠谱的。
下面请贝叶斯公式出场:
P(A):表示检测出阳性的概率,为艾滋病患者检出阳性的概率加上正常人被误诊为阳性的概率,
为1/10000 * 99.9% + 9999/10000 * 0.01% = 0.00019989
P(B):表示艾滋病的发病率,
为 1/10000 = 0.0001
P(A | B):表示艾滋病患者检测出阳性的概率,
为 99.9% = 0.999
带入贝叶斯公式计算:
P(B | A)= P(A | B)* P(B)/ P(A)=
0.999 * 0.0001 / 0.00019989 = 0.49977488
约等于 50%
是不是很意外?
你可能会说,准确率才50%,那不是和瞎猜的概率一样吗?那测个屁啊,出现这种情况的原因是艾滋病的发病率太低了,只有万分之一。
对这种初次检测准确率较低的方法,只需要做第二次检测就可以大幅度提升判断,这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。
贝叶斯公式在生活中已经有了广泛的应用,例如:垃圾邮件的筛选,人工智能的算法等等。
03
电话
“喂,您好,是班主任老师吗?我是小扎。”
“小扎你好,找我有什么事吗?”
“老师,我想和小美坐一起,小美的数学学得好,我和她坐一起能好好补补数学。”
“好吧。”
“谢谢老师,我一定会好好学习的。”