【通俗理解】贝叶斯统计

用户1594945

发布于 2018-07-20 14:28:45

1.9K0

在统计学中有两个学派，一个是频率学派，另一个是贝叶斯学派。频率学派认为参数θ是一个固定的值，而不是随机变量，只不过是不知道它的值而已；而贝叶斯学派则认为任何参数θ都是一个随机变量，也有自己的概率分布。所以这两个学派分别形成了最大似然估计（maximum likelihood estimate，MLE）和最大后验估计（maximum a posteriori estimate，MAP）。

贝叶斯统计的一些概念

先验分布（prior probability distribution）：它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点，是认为在关于θ的任何统计推断问题中，除了使用样本X所提供的信息外，还必须对θ规定一个先验分布，它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述，先验分布不必有客观的依据，它可以部分地或完全地基于主观信念。

后验分布（posterior distribution）：根据样本 X 的分布Pθ及θ的先验分布π（θ），用概率论中求条件概率分布的方法，可算出在已知X=x的条件下，θ的条件分布 π（θ|x）。因为这个分布是在抽样以后才得到的，故称为后验分布。贝叶斯学派认为：这个分布综合了样本X及先验分布π（θ）所提供的有关的信息。抽样的全部目的，就在于完成由先验分布到后验分布的转换。

最大后验估计（Maximum A Posterior Estimation）：最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

用“瓜熟蒂落”解释贝叶斯统计

是不是通过数学的定义去理解贝叶斯统计，有一些晦涩难懂。没关系，下面我们用一个相当直观的例子帮你理解其含义。

先验概率：就是常识、经验所透露出的“因”的概率，在这个例子中就是瓜熟的概率。应该很清楚。

后验概率：就是在知道“果”之后，去推测“因”的概率，也就是说，如果已经知道瓜蒂脱落，那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是：

P（瓜熟 | 已知蒂落）=P（瓜熟）×P（蒂落 | 瓜熟）/ P（蒂落）

似然函数，是根据已知结果去推测固有性质的可能性（likelihood），是对固有性质的拟合程度，所以不能称为概率。在这里就是说，不要管什么瓜熟的概率，只关心瓜熟与蒂落的关系。如果蒂落了，那么对瓜熟这一属性的拟合程度有多大。似然函数，一般写成L（瓜熟 | 已知蒂落），和后验概率非常像，区别在于似然函数把瓜熟看成一个肯定存在的属性，而后验概率把瓜熟看成一个随机变量。

再说一说似然函数和条件概率的关系。似然函数就是条件概率的逆反。意为：

L（瓜熟 | 已知蒂落）= C × P（蒂落 | 瓜熟），C是常数。

具体来说，现在有1000个瓜熟了，落了800个，那条件概率是0.8。那我也可以说，这1000个瓜都熟的可能性是0.8C。

注意，之所以加个常数项，是因为似然函数的具体值没有意义，只有看它的相对大小或者两个似然值的比率才有意义，后面还有例子。

同理，如果理解上面的意义，分布就是一“串”概率。

先验分布：现在常识不但告诉我们瓜熟的概率，也说明了瓜青、瓜烂的概率

后验分布：在知道蒂落之后，瓜青、瓜熟、瓜烂的概率都是多少

似然函数：在知道蒂落的情形下，如果以瓜青为必然属性，它的可能性是多少？如果以瓜熟为必然属性，它的可能性是多少？如果以瓜烂为必然属性，它的可能性是多少？似然函数不是分布，只是对上述三种情形下各自的可能性描述。

那么我们把这三者结合起来，就可以得到：后验分布正比于先验分布 × 似然函数。先验就是设定一种情形，似然就是看这种情形下发生的可能性，两者合起来就是后验的概率。

至于似然估计：就是不管先验和后验那一套，只看似然函数，现在蒂落了，可能有瓜青、瓜熟、瓜烂，这三种情况都有个似然值（L（瓜青）：0.6、L（瓜熟）：0.8、L（瓜烂）：0.7），我们采用最大的那个，即瓜熟，这个时候假定瓜熟为必然属性是最有可能的。

但如果现在是冬天，瓜熟概率为零，那么你根据贝叶斯估计，就不会判断瓜熟了……

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。