前 言
数据科学专家必须了解概率方面的知识。通常情况下,解决许多数据科学难题的办法与概率的本质息息相关。因此,更好地理解概率能够帮助你更有效率地理解并实现与之相关的算法。
在本文中,我将会重点讲解条件概率。对于概率知识的初学者,我强烈建议你们,在深入学习概率知识之前阅读一下这篇文章:
https://www.analyticsvidhya.com/blog/2017/02/basic-probability-data-science-with-examples/。
预测模型很容易就可以被我们用条件概率的方式来理解。例如,未来十天内,一名来自于A区域的顾客购买Z类产品的概率是0.8。也可以说是,假设这名顾客来自于A区域,那么他购买Z类产品的概率为0.8。
在本文中,我将会为你详细的讲解条件概率,利用几个实例和现实中的情景帮助你更好的理解条件概率。
目 录
1. 事件——并事件、交事件以及不相交事件
在探究条件概率之前,让我们先定义一下基本的术语:
1.1 事件
事件只是随机试验的结果。我们投掷一枚硬币,最终正面朝上,这就是一个事件。我们投掷一枚骰子得到的点数是6,这也是一个事件。通过定义事件和样本空间,我们把概率和事件结合在一起。
样本空间只是试验结果可能性的集合。这就意味着如果我们重复进行一项特殊的任务,此项任务的所有可能性结果都会储存在样本空间里。
例如:投掷一枚骰子将会获得{1, 2, 3, 4, 5, 6}的样本空间。只要投掷一枚骰子,我们得到的点数一定是这6个数字中的一个数字。样本空间包括试验中会发生的所有结果。
同时,一个事件也可能是不同事件的集合。
1.2 并事件
我们投掷骰子,定义得到点数4或者点数6为事件(C)。事件C是两个事件的并集。
事件A = 得到点数为4
事件B = 得到点数为6
P(C) = P (A ∪ B)
简单来说,当我们对两个(或者更多)事件的组合概率感兴趣时,那么我们应该考虑A事件并上B事件的概率。
1.3 交事件
我们来看另一个例子。
你投掷一个骰子,事件C表示得到的点数既是2的倍数又是3的倍数。
事件A = 你投掷一个骰子,得到的点数是2的倍数
事件B = 你投掷一个骰子,得到的点数是3的倍数
事件C = 得到的点数既是2的倍数又是3的倍数
事件C是事件A和事件B的交集。
概率的定义如下:
P (C) = P (A ∩ B)
现在我们可以这么说,阴影区域是事件A和事件B同时发生的概率。
1.4 不相交事件
假如你遇见一个任何两件特殊事件都不能同时发生得案例,这将会怎样?
例如:假如你有一枚骰子,而且你只能投掷一次。
事件A = 得到的点数是3的倍数
事件B = 得到的点数是5的倍数
你期望事件A和事件B同时发生。
那么我们来看一下事件A和事件B的子空间。
事件A = {3,6}
事件B = {5}
样本空间 = {1, 2, 3, 4, 5, 6}
正如你所见,事件A和事件B 没有同时发生的可能性。这样的事件被称为不相交事件。如果用维恩图(Venn diagram)进行展示:
现在我们已对并事件、交事件以及不相交事件这三个术语有了一定的了解。现在,我们可以探讨一下独立事件了。
2. 独立事件、相关事件以及互斥事件
假设我们有两个事件——事件A和事件B。
如果事件A不影响对事件B的发生,那么事件A和事件B就叫作独立事件。
我们来看一些独立事件的例子。
在上述每一个案例中,事件一的概率结果都不会影响事件二的概率结果。
独立事件的概率
这个案例中的概率公式是P (A ∩ B) = P (A) * P (B)
我们来举个例子。如果我们从装有4个红球和3个黑球的罐子中挑选出一个红球,同时我们投掷一枚硬币,如果是正面朝上,那么我们就赢了。赢的概率是多少呢?
我们把事件A定义为从罐子里摸出红球。
事件B是投掷一枚硬币,结果正面向上。
我们需要分别算出摸到红球和投掷硬币正面向上的概率:
P (A) = 4/7
P (B) = 1/2
我们知道,抛掷硬币的结果对球的颜色没有影响。
P (A ∩ B) = P (A) * P(B)
P (A ∩ B) = (4/7) *(1/2) = (2/7)
相关事件概率
接下来,你能想到一些相关事件的例子吗?
在上述例子中,我们定义事件A为从罐子中摸到一个红球。我们把这个红球放在外面,然后再从罐子里取出一个球。
事件二的概率跟事件一的概率是一样的吗?
让我们来看看。第一次摸到红球的概率是4/7。假设我们一次就摸到红球。现在,我们第二次摸到红球的概率是3/6。
如果我们第一次尝试摸到的不是红球,而是白球。然后,第二次尝试摸到红球的概率就是4/6。因此,第二次事件的概率取决于第一次事件的结果。
测验1:如果你有一张J牌,然后你从一副新扑克牌中再抽出一张J牌的概率是多少?这是相关事件还是独立事件呢?
不相交事件
不相交事件是指所有事件中的任意两个事件都不会同时发生。
投掷一枚硬币是理解这一术语最简单的例子。因为我们投掷一枚硬币不是正面朝上就是反面朝上,但是投掷一枚硬币永远不会出现反正面同时向上的情况。也就是说,正面和反面同时朝上的情况是不会出现的。
如果一组事件包含所有的试验结果,那么这组事件就十分全面。在进行试验时,列表里中的事件就一定会发生。
例如,投掷一枚骰子,{1, 2, 3, 4, 5, 6}就是一个详尽的集合,因为它包含了所有可能的结果。
在投掷骰子的这件事中,分别想象一下得到的点数为“偶数”(2,4或者6)的概率和得到的点数为“非6”(1,2,3,4,5)的概率。这两个事件各自均非常详尽,但并不是不相交事件。
测验2:检验下面的事件是不是不相交事件:
3. 条件概率
自然而然地,条件概率的形成原因在于,一个试验的结果可能会影响到下一个试验的结果。
假设事件一(事件A)已经发生了,那么我们努力地计算事件二(事件B)发生的概率。在我们将事件一考虑在内的时候,如果事件的概率发生了变化,那么我们可以确定地说,事件A的发生影响事件B的概率。
我们来思考一下以下的案例:
……
这里我们定义两个事件:
我们可以把条件概率公式写成这样
,它表示:假设事件B已经发生,事件A发生的概率。
为了让你理解这一概念,我们来玩个简单的纸牌游戏。假设你从一副扑克牌中抽出两张牌,如果你抽到的第一张是J扑克牌,第二次抽到的是A扑克牌(不能替换),那么你就赢了。假如我们知道你第一次就抽到了J扑克牌呢?
事件A是指第一次抽到J扑克牌。
事件B 是指第二次抽到A扑克牌。
我们需要用到这个公式
。
P(A) =4/52
P(B) =4/51 {no replacement}
P(A and B)= 4/52*4/51= 0.006
当我们已经知道某些前提条件的时候,我们就相当于是在确定概率,而非计算其随机概率。在上述案例中,我们已经知道他在第一轮中就抽到了J扑克牌。
我们来看另一个例子。
假如你有一个装有6个球的罐子——3个黑球和3个白球。假设摸到的第一个球是黑球,那么再摸到一个黑球的概率是多少呢?
P (A) = 第一轮中摸到了一个黑球
P (B) = 第二轮中摸到了一个黑球
P (A) = 3/6
P (B) = 2/5
P (A andB) = 1/2*2/5 = 1/5
3.1 可逆条件
举例:Rahul 最喜欢的早餐是百吉饼,最喜欢的午餐是披萨。Rahul 早餐吃百吉饼的概率是0.6,午餐吃披萨的概率是0.5。假设 Rahul 午餐吃披萨的概率是0.7,那么他早餐吃百吉饼的概率是多少。
我们定义事件A是 Rahul 早餐吃百吉饼。事件B是 Rahul 午餐吃披萨。
P (A) =0.6
P (B) =0.5
查看相关的数值,我们会发现:Rahul 早餐吃百吉饼的概率(0.6)与假设他午餐吃披萨而得到的早餐吃百吉饼的概率(0.7)不同。这就意味着,Rahul 午餐吃披萨会影响其早餐吃百吉饼的概率。
假设现在你有一个百吉饼当早餐,如果我们需要知道你吃披萨的概率该怎么办呢?也就是说,我们需要知道这个公式:
。现在就涉及到贝叶斯定理了。
4. 贝叶斯定理(Bayes Theorem)
贝叶斯定理表示的是:基于先前的事件,当下事件发生的概率。如果知道条件概率公式的为
,就可以用贝叶斯规则找出可逆概率的公式
。
我们怎么才能做到呢?
以上描述是贝叶斯规则的通用表达式。
就前面的示例来说——你早餐吃百吉饼的概率是=0.7*0.5/0.6,现在我们想要计算午餐吃披萨的概率。
我们可以对上述公式做进一步的推广。
如果多个事件Ai与另一个事件B组成了一个详尽的系列。
我们可以把方程式写成这样:
5. 贝叶斯定理应用实例及概率树法
我们以乳腺癌患者为例。在肿瘤专家告知妇女罹患癌症之前,需要对患者们进行三次测试。在美国大约每1000个人中就有1.48人罹患乳腺癌。患者要进行多种测试。三套检查做完,如果所有测试结果都是阳性,那么只能诊断这个病人患有癌症。
我们仔细的检验这个测试。
敏感性测试(93%)——真阳性率
特异性测试(99%)——真阴性率
假设患者第一轮测试结果为阳性,我们先计算一下患者罹患癌症的概率。
P (患癌 | 第一轮测试 +)
P (癌症) = 0.00148
P (+ |cancer)表示敏感性=0.93
P (- | nocancer)表示特异性
由于我们没有任何其他的信息,我们认为这位患者是一个随机抽样个体。因此,我们暂且认为该患者罹患癌症的概率是0.148%。
补集指的是患者有0.148-100%的可能性没有罹患癌症。我们可以画出下面的树形图来表示相应的概率。
假设他第一次测试的结果为阳性( P (cancer|+)),我们不计算其罹患癌症的概率:
P (cancerand +) = P (cancer) * P (+) = 0.00148*0.93
P (nocancer and +) = P (no cancer) * P(+) = 0.99852*0.99
计算检测结果为阳性的概率,该名患者可能罹患癌症并且测试结果为阳性,但也有可能没有罹患癌症只是检测结果为是阳性。
这就意味着,如果患者第一次检测结果为阳性,那么他就有12%的可能性罹患癌症,即事后概率。
5.1 贝叶斯理论的更新
假设这名病患第二次测试结果仍然是阳性,现在我们试着计算一下她罹患癌症的概率。
如果她第一次测试结果为阳性,那么我们只需要对她进行第二轮测试。所以,现在这位患者不再是一个随机抽样个体,而是特定的例子,我们已经对她有所了解。因此,之前的概率应该会发生变化。我们使用前期测试结果更新之前的概率。
因为我们是再次进行相同的测试,所以测试的敏感性和特异性都不会变化。请看下面的概率树图。
假设患者第二次测试结果为阳性,我们再算一次她罹患癌症的概率。
P (cancerand +) = P(cancer) * P(+) = 0.12 * 0.93
P (nocancer and +) = P (no cancer) * P (+) = 0.88 * 0.01
计算测试结果为阳性的概率,患者可能罹患癌症且测试结果为阳性,也有可能没有罹患癌症只是测试结果为阳性。
现在我们看到,这位两次测试结果都为阳性的患者,其罹患癌症的概率是93%。
6. 频率学派vs贝叶斯方法
频率学派通过大量的试验来预期事件发生的概率。
P(event) = n/N, n是指在N次机会中,事件A发生的次数。
在贝叶斯方法中,概率与信度息息相关,在信息不完整的情况下预测事件发生的概率。
频率学派则认为,总体平均值虽然真实存在但却不可预知,只能通过数据进行估测。我们可以知道样本平均数的分布并且以样本平均数为中心创建置信区间。实际的总体平均值有时处于置信区间中,有时并不在。
这是因为频率学派相信,真正的平均值是一个固定值,并没有分布区间。所以,频率学派认为,如果每个区间都由一个不同的随机样本创建得到,那么95%的相似区间将会包含真实的平均值。
贝叶斯学派的定义与频率学派的观点完全相悖。贝叶斯学派利用其判断去创建概率,他们认为确定的数值比那些以数据和先前信息为基础的数字更可信。
贝叶斯学派在样本均值附近创建了一个可信区间,而且完全受控于之前平均数值的影响。因此,贝叶斯方法能够利用概率来表述总体平均数。
7. 公开挑战
尾 声
贝叶斯方法和频率学方法之间的辩论为时已久。我们有一篇深入讲解这两种方法的精彩文章,分别对这两种方法和贝叶斯推理进行了详尽的讲解(https://www.analyticsvidhya.com/blog/2016/06/bayesian-statistics-beginners-simple-english/)。
本篇文章旨在向读者介绍条件概率和贝叶斯定理。贝叶斯定理为我们构建了数据科学中经常用到的一种分类算法——朴素贝叶斯(Naive Bayes)。
一旦你搞清楚了上述概念,你就有可能会对朴素贝叶斯算法产生兴趣,从而会为贝叶斯定理在其中的广泛应用而感到震惊。
本文作者 Dishashree Gupta 是一名机器学习爱好者,拥有一年半使用 R、高级Excel 和 Azure ML 的市场研究经验。
本文由 AI100 编译,转载需得到本公众号同意。
编译:AI100
原文链接:https://www.analyticsvidhya.com/blog/2017/03/conditional-probability-bayes-theorem/