【通俗理解】贝叶斯统计

在统计学中有两个学派,一个是频率学派,另一个是贝叶斯学派。频率学派认为参数θ是一个固定的值,而不是随机变量,只不过是不知道它的值而已;而贝叶斯学派则认为任何参数θ都是一个随机变量,也有自己的概率分布。所以这两个学派分别形成了最大似然估计(maximum likelihood estimate,MLE)和最大后验估计(maximum a posteriori estimate,MAP)。

贝叶斯统计的一些概念

先验分布(prior probability distribution):它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。

后验分布(posterior distribution):根据样本 X 的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下,θ的条件分布 π(θ|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。

最大后验估计(Maximum A Posterior Estimation):最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

用“瓜熟蒂落”解释贝叶斯统计

是不是通过数学的定义去理解贝叶斯统计,有一些晦涩难懂。没关系,下面我们用一个相当直观的例子帮你理解其含义。

先验概率:就是常识、经验所透露出的“因”的概率,在这个例子中就是瓜熟的概率。应该很清楚。

后验概率:就是在知道“果”之后,去推测“因”的概率,也就是说,如果已经知道瓜蒂脱落,那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是:

P(瓜熟 | 已知蒂落)=P(瓜熟)×P(蒂落 | 瓜熟)/ P(蒂落)

似然函数,是根据已知结果去推测固有性质的可能性(likelihood),是对固有性质的拟合程度,所以不能称为概率。在这里就是说,不要管什么瓜熟的概率,只关心瓜熟与蒂落的关系。如果蒂落了,那么对瓜熟这一属性的拟合程度有多大。似然函数,一般写成L(瓜熟 | 已知蒂落),和后验概率非常像,区别在于似然函数把瓜熟看成一个肯定存在的属性,而后验概率把瓜熟看成一个随机变量。

再说一说似然函数和条件概率的关系。似然函数就是条件概率的逆反。意为:

L(瓜熟 | 已知蒂落)= C × P(蒂落 | 瓜熟),C是常数。

具体来说,现在有1000个瓜熟了,落了800个,那条件概率是0.8。那我也可以说,这1000个瓜都熟的可能性是0.8C。

注意,之所以加个常数项,是因为似然函数的具体值没有意义,只有看它的相对大小或者两个似然值的比率才有意义,后面还有例子。

同理,如果理解上面的意义,分布就是一“串”概率。

先验分布:现在常识不但告诉我们瓜熟的概率,也说明了瓜青、瓜烂的概率

后验分布:在知道蒂落之后,瓜青、瓜熟、瓜烂的概率都是多少

似然函数:在知道蒂落的情形下,如果以瓜青为必然属性,它的可能性是多少?如果以瓜熟为必然属性,它的可能性是多少?如果以瓜烂为必然属性,它的可能性是多少?似然函数不是分布,只是对上述三种情形下各自的可能性描述。

那么我们把这三者结合起来,就可以得到:后验分布 正比于 先验分布 × 似然函数。先验就是设定一种情形,似然就是看这种情形下发生的可能性,两者合起来就是后验的概率。

至于似然估计:就是不管先验和后验那一套,只看似然函数,现在蒂落了,可能有瓜青、瓜熟、瓜烂,这三种情况都有个似然值(L(瓜青):0.6、L(瓜熟):0.8、L(瓜烂):0.7),我们采用最大的那个,即瓜熟,这个时候假定瓜熟为必然属性是最有可能的。

但如果现在是冬天,瓜熟概率为零,那么你根据贝叶斯估计,就不会判断瓜熟了……

原文发布于微信公众号 - AI启蒙研究院(AIEvolve)

原文发表时间:2017-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度学习贝叶斯,这是一份密集的6天速成课程(视频与PPT)

多数讲师和助教都是贝叶斯方法研究团队的成员以及来自世界顶级研究中心的研究者。很多讲师曾经在顶级国际机器学习会议例如 NIPS、ICML、ICCV、CVPR、IC...

18410
来自专栏编程

python常用可视化技巧

向AI转型的程序员都关注了这个号 大数据挖掘DT数据分析 公众号: datadw 我们在对数据进行预处理时,常常需要对数据做一些可视化的工作,以便能更清晰的认...

25590
来自专栏PPV课数据科学社区

贝叶斯、概率分布与机器学习

一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个...

388100
来自专栏自然语言处理

程序员眼中的统计学7

正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre(棣莫弗)于1733年受次提出的,但由于德国数学家Gauss(高斯)率先将其应...

12110
来自专栏机器学习算法工程师

《机器学习》笔记-贝叶斯分类器(7)

作者:刘才权 编辑:陈人和 前 言 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还...

40460
来自专栏灯塔大数据

塔说 | 如何理解深度神经网络中的泛化理论?

前言 近年来的深度神经网络研究进展往往都重方法而轻理论,但理论研究能够帮助我们更好地理解深度学习成功背后的真正原因,并有望为进一步的研究指明方向。近日,普林斯顿...

41160
来自专栏人工智能头条

面向图像分析应用的海量样本过滤方案

15220
来自专栏梦里茶室

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-tempora

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learni...

78970
来自专栏机器学习算法与Python学习

Deep Learning(1) -- 概述、分布式表示与思想

绪论 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的...

59870
来自专栏人工智能LeadAI

重磅! | 神经网络浅讲:从神经元到深度学习

神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度...

44260

扫码关注云+社区

领取腾讯云代金券