理解计算 从根号2到AlphaGo 第七季 无处不在的贝叶斯-人物篇


转载请在文首注明:本文转自微信公众号SIGAI

文章PDF见:

http://www.tensorinfinity.com/paper_162.html

小编推荐:

六期飞跃计划还剩5个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO1)

SIGAI 特邀作者:twinlj77

作者简介:大学教师

研究方向:机器学习、信息安全

引子

贝叶斯(Bayes)这个词语可能是当前统计学或者机器学习领域出现频率最高词语,但是有关贝叶斯本人以及他工作的初始资料很少,甚至连他的确切出生日期都没有,只留下了三封信和一篇笔记包含了一些学术梗概,同时他在他生活的时代几乎没有人关注,直到20世纪中叶他才成为统计史上的代表人物。现在各种以贝叶斯命名的模型或算法层出不穷。本文试图阐述贝叶斯这个仅有5个字母却包含了当前机器学习半壁江山的核心思想,这涉及到回顾几乎整个统计或者概率发展的历史,由于内容繁多,本季分为上下两篇,上篇主要介绍与贝叶斯相关的历史人物的贡献以及贝叶斯定理的相关基础概念,简称人物篇。下篇则主要介绍以某些以贝叶斯命名的模型的基本原理及应用,简称模型篇。

1.贝叶斯定理的出现

1763年12月23日,理查德·普莱斯( Richard Price) 在伦敦皇家学会会议上宣读了托马斯·贝叶斯( Thomas Bayes )的遗世之作—《An essay towards solving a problem in the doctrine of chances》[1]( 机会学说中一个问题的解) , 从此贝叶斯定理诞生于世,在发表后很长时间内没有引起很大的反响。尽管贝叶斯的名气现在看来如日中天,但是在他那个年代,普莱斯才是当之无愧的明星, 他与本杰明·富兰克林、托马斯·杰斐逊、约翰·亚当斯经常联系,并在美国建国过程中发挥了积极作用。同时,关于英国人口的论文直接影响了托马斯·马尔萨斯提出他的人口几何级数增长理论。普莱斯早年曾与贝叶斯相识,贝叶斯去世前将他的笔记和一些未发表论文交给了普莱斯(这不仅是他做的最正确的决定之一,同时我们也将会看到这充分体现了贝叶斯定理所展现的主观信念),他坚信普莱斯的品德保证了其不会将这个成果据为己有。两年之后,普莱斯把经过补充完善的论文提交给皇家学会。普莱斯于1791年去世,他的葬礼是由氧气的发现者约瑟夫·普里斯特利主持的,托马斯·贝叶斯也葬在那里,他们的坟墓几乎挨在一起[2]。可以肯定的说如果没有普莱斯的贡献,从机会学说本身来看,贝叶斯定理一定会以其他人命名。贝叶斯定理出现这件事本身证明了贝叶斯定理的强大之处。

图1 Thomas Bayes与Richard Price

2 .机会与概率

概率是一个事件发生的可能性大小的一种数量指标,通常这个指标介于0-1之间。根据事件发生情况的不同,概率的定义也有不同。事件分为可重复性事件和一次性事件。可重复性事件是指理论上能够在某种相同的条件下无限重复的。例如,我们可以假设掷骰子,从理论上看可以无限的。一次性事件一般指与时间相关的一个事件发生的情况,例如2019年12月30日前完成这个系列的撰写工作的概率。由于时间不可逆,这是一个一次性事件的例子,只是对《复仇者联盟》来说,与时间相关的事件似乎成了一种可重复事件。

关于能够重复的事件的概率,称为为客观规律。而一次性事件的概率称为主观概率,这种解释稍有些令人迷惑。客观概率不随人的意志转移,它依赖一些公认的运算法则,几乎反映了世界的一种客观性。而主观概率则取决于人的主观看法。例如,不同的人对于某件事有难度的事件是否能够成功,他们的看法决定了事件在发生的可能性。

决定客观概率的方法主要有两种,一种是在大量重复事件中寻找事件出现的频率,例如,每100万个人当中,不幸患上某种疾病的概率就是客观概率。尽管重复事件可能受到环境的影响,但这种大量重复事件的统计方法也不同,一般而言,获得的重复事件越多,事件发生的概率越准确。这种方法客观性是不容置疑的,该方法定义的概率被称为统计概率,统计的意思是从数据中推断出一些最可能出现的一些信息。另一种形式则是我们在重复的事件发生前,就已经知道结果的可能性,就像掷骰子一样,我们几乎天然的认为每一面出现的概率是等可能的,这种等可能性并不来自重复实验,而是来源于骰子物理结构上的对称性,这种情况下定义的概率则被称为古典概率,这很大程度上是因为,这种概率本身就来自于古代的赌博游戏中的骰子。实际上,要显示的区分主观概率和客观概率不必要的,在现代的概率论的体系下,并不对概率的具体含义进行说明,而只是定义出这些表示概率的量之间的运算所遵从的一些公理或规则。将概率进行区分有助于我们下面的讨论,主观概率是我们本文所要讨论的核心,即贝叶斯学派的基础,而客观概率则是频率学派的天下。

概率确切的所说应该是古典的客观概率,起源于赌博游戏,现在的赌博游戏花样百出。而在16世纪时,赌博主要依赖掷骰子所展示的随机性,因此参与者非常关心各种出现机会的大小。全面阐述古典概率各种计算问题的人是卡登(Girolamo Cardano),这是我们的老朋友了,他不仅作为数学家设计了我们在前面描述的隐写术的最早方法卡登格子,更重要的是作为一个毕生研究赌博的伟大的赌徒,在他的著作《The Book of Games of Chance》中,对赌博进行了全面的讨论,特别是他第一次明确了表明了骰子应该是绝对对称的,按他的话来说,即“诚实的(Honest)”,并且推导出了最早的组合公式,即从n个不同的物体中,选择k个时,有多少种取法。作为一名资深赌徒,他的名言是:“赢得赌博的最好的办法就是完全不参加赌博[7]”。

图2 Girolamo Cardano (1501–1570) 与 Pierre de Fermat (1601-1665)

在那个时候,大家关注一个十分有趣的 “分赌本“问题[3,4]:A和B两人赌博,各出赌金a元,每局每个人获胜的概率都是1/2,他们规定,谁先胜S局,即赢得全部押注的金额2a元。但是由于不可抗拒的原因,在A赢S1局,B赢S2局的时候,这个赌博停止(警察来了!)此时,押注金额2a应改如何分配给A和B才算公平?一种简单粗暴的解决方案是,由于谁都没有赢S局,因此,赌博失效,各自取回赌本。这不算一个公平的方案,因为有可能A已经还剩1局就赢S局,而B才赢了1局。Cardano注意到在这种情况下, 押注金的分配比例应该是S1和S2与S的差距相关,而不是简单的S1和S2本身。这个问题之所以重要,主要是它的解决明确了概率与期望的关系,即如果我们能在当前情况下,估计出A最终获胜的概率Pa以及B获胜的概率1-Pa。那么赌金应该按照PA:PB之比分配。业余数学家费马(Pierre de Fermat)在这个问题中定义了赌博的值(Value)的概念,即赌注乘以概率。伟大的惠更斯(Christiaan Huyens)在他的《机遇的规律》一文中,将值(Value)改为了期望(Expectation), 从此这个概念流芳百世。作为当时几乎与牛顿齐名的科学家,他还撰写了《光论》这本书,将光看作是波一样东西,开创了光的波动学说。而牛顿则略显犹豫的以他那更著名的著作《光学》选择站在了光的粒子说一边。从此,关于光是波还是粒子的讨论,以及由此产生的量子理论的发展,完全颠覆了整个世界。

3.伯努利与二项分布

至惠更斯时为止,关于概率的所有内容只是围绕着赌博中掷骰子的问题。这种机遇博弈在概率论的产生过程中起到了重要作用。也只有对于掷骰子这样简单问题的研究才能够为这门学科的建立提供一个宽松环境,一种看起来几乎无益的赌博活动有时起到异乎寻常的价值。然而,一个相对完整的概率思想的建立,则落在了莱布尼茨坚定的支持者,雅各布伯努利(Jakob Bernoulli )身上。雅各布去世时,他的那本不朽著作《推测术》还未出版。他深受惠更斯的影响,但是他做的更多,他明确指出了重复事件每次重复时的独立性,形成了伯努利概型的概念,特别是在这本书中,还特别讨论了关于概率论在社会到的和经济领域的应用,更提出了在在概率史上居于不朽地位的以其名字命名的大数定律——伯努利大数定律!我们已经在《多维的浪漫》中,见识了大数定理的威力。雅各布将客观概率明确区分为可先验计算的概率(古典概率),和后验计算的概率(统计概率)。在他那个时代,牛顿力学达到了顶峰,机械决定论的观点贯穿于对于随机性本身的解释。例如:尽管掷一个骰子出现某一个面的情况是随机的,这主要是因为我们掌握的信息不够多,若把一切有关条件,包括骰子的大小,质量分布,初始位置,掷的方向和力度全弄清楚了,结果应该是确定的。这种机械决定论的观念是如此根深蒂固,以至于在200年后,当量子理论和相对论相继被提出后,随机性作为不容置疑的基本物理现象被很多反直觉的实验所验证时,伟大的爱因斯坦依然坚信“上帝是不掷骰子的。

图3 Christiaan Huyens(1629-1695) 与 Jakob Bernoulli (1655-1705)

以伯努利命名的分布,是研究一种最简单的事件的随机性而得名的。若一次试验只有正例和反例两种可能结果,以随机变量表示就是事件X的结果只能取0或1,伯努利试验是只有两种可能结果的单次随机试验,最简单的伯努利试验就是抛硬币,抛一次(诚实的)硬币,正反面出现的概率均为p=0.5,出现正面(X=1)的分布是服从参数(概率)为0.5的伯努利分布,记做X∼Ber(θ= 0.5),若硬币有缺陷,抛一次硬币,正面出现的分布服从参数不等于0.5的伯努利分布,例如X∼Ber(θ=0.4)。在这种最简单情况下,伯努利分布的参数θ本身就是一次实验中正面出现的概率P。

如果将抛(一次)硬币这个实验重复N次,每一次出现正面的概率都相同即等于P,那从整体上看,出现正面的次数,这里也用X表示,则X有0-N种情况,表示为X~Ber(N,θ=P),碰巧的是,这种0-N种情况的概率分布正好可以用二项式展开的牛顿公式表示,因此,后人把这个分布称为二项分布。具体例子是,若一次实验正面概率为p=0.5,当N=3时的二项分布则仅有如下情况:

以上4种情况的概率分别对应于,N=3时的二项展开式的系数

其中a=p,b=1-p时可得,所有情况的概率之和为1。

更进一步,伯努利在他的这本书中,证明了当N->∞时,频率X/N依概率收敛于p,接着伯努利试图解决一个思路相反的问题,即给定ε>0和c>0(ε很小,c很大),为使事件|X/N-p|≤ε的概率pε不小于c/(c+1),实验次数N至少要达到多少,这个问题也被称为二项概率逼近问题。这种表达的一个直观解释说法是,当N为多少时,频率与概率足够接近。数学家狄莫弗求解问题的研究中,发现了一个在概率统计历史种的一个重要的里程碑式的结论-以他名字命名的中心极限定理。由这个定理告诉我们,频率接近概率的精度,大致上与试验次数N的平方根成比例,而不是N本身,这个结论是人类认识自然的一个重大进展,

这个量具有很多特殊重要的地位,现在这个量被标准差所取代,我们在第一季中,已经告诉大家如何求解

的近似解,这种偶然性简直是写作的一种随机乐趣。

对二项概率分布的逼近是数理统计学历史上的重要工作,这项工作种对于未知概率的推导直接导致了贝叶斯推断思想的建立。贝叶斯方法最初是为了解决二项概率分布的估计问题而提出的一种方法,这种估计问题在早期也被会成为逆概率。逆概率就是求概率问题的逆问题,具体含义是给定观察结果,问由此可以对概率P作何推断。正概率,则是给定事件的概率P,由此求某种观察结果(其他相关事件)的概率。可以通俗的讲,正概率是原因推结果,是概率论。而逆概率是由结果推原因,是数理统计[3]。而现在,这种思想已经成为整个统计学种贝叶斯学派的基本思想,在信息时代,这种思想也是机器学习算法中重要的研究领域。

4.贝叶斯的参数估计

在贝叶斯那篇经典论文中,这个逆概率问题表述为:设X服从二项分布B(N, θ),N已知,而θ未知,给定常数a, b, 0<a<b<1, 在得到观察值X后,求条件概率P(a<θ<b|X),从这一个原始问题出发,我们应该可以看到,贝叶斯从一开始把二项分布的参数θ看作是一个随机变量,随机反映了人们对于参数θ的不了解,这种把不了解的东西都看成是某种随机变量的思路是符合人类的思考方式的。贝叶斯将θ取各种值的可能性进行研究,此时θ必须作为一个随机变量来考虑,这就是贝叶斯的基本观点。现在我们的问题变成了如何求一个在X给定的情况下的条件分布问题。为了得到这个条件分布,则必须了解θ的无条件分布,即,这个分布是在作实验之前就必须定下来的东西,因此也被称为先验分布。正是这种将原来二项分布的参数θ看作随机变量,并且引入一种主观猜测的先验分布的这种做法,不仅是贝叶斯理论的核心,同时更是持反对观点的频率学派所攻击的一个关键点。频率学派将θ看作一个固定的值,在这种情况下,讨论P(a<θ<b|X)没有意义,因为它要么为0,要么为1。

与雅各布的客观概率不同,贝叶斯从一开始就把概率定义为一种主观猜测,接着在“机械决定论”的基础上,对先后发生的两个事件E1和E2事件,定义如下命题:

由于事件E1和E2的先后不同, 第一个命题则表示为由过去(E1)预测未来(E2), 第二个命题则是由未来反测过去。以上公式就是著名的贝叶斯公式,他的形式和条件概率的定义一模一样,我们将会看到,不同之处在于贝叶斯公式是作为一个基本工具去计算条件概率的。

有意思的是,现在很多先验总是假设我们对其有了一定了解,而最早的思想则来自于所谓的“同等无知”原则,即事先对θ一无所知,从数学上来讲,一无所知即假设θ是(0-1)上的均匀分布,θ ~ R(0, 1)。为了解决贝叶斯的问题,我们知道当θ固定时,实验N次,事件(硬币正面朝上)出现X次的概率就是服从二项分布

若θ ~ R(0, 1),并且把N看作常量的话,根据全概率公式,可得:

根据贝叶斯提出的两个命题,他要解决的问题则可表述为:

其中,也被称为有了样本X之后的后验分布,先后之分,完全取决于分布是定义在有了样本之前或之后,上面的式子中当a,b,N,X都给定的情况下,由于X取0-N是等可能的,因此可得P(X)=1/(N+1)。

现在我们仅考虑为未知固定值的情况,想看一看对一个X事件出现时,对这个未知的固定值的影响,依然根据贝叶斯的公式:

积分项

看起来比较复杂,为了进行简化表示,需要一个著名的Beta函数Fbeta (也称第一欧拉积分)[5]:

, 其中p,q∈R

再利用这个Fbeta定义一个新的分布,即Beta分布,

这样就可以看成是一个新的Beta分布:

此时,p和q均是正整数,这个公式反映了贝叶斯理论的一个重要的结果,在一切都未知的情况下,是一个均匀分布,但是当给定X后,P(θ|X)则变成了一个新的分布,同时P(a<θ<b|X)也可表示为:

既然给定X后,变成了Beta分布,现在我们可以进行所谓的一种思想实验,例如,在脑海中已经抛掷了任意多次硬币,例如N=10000次,你主观的认定,其中正面刚朝上的情况X =4901次,这样我们就可以把这个主观的思想实验的结果作为的先验分布:

然后,我们再接着进行真正的实验,此时在统计实验次数N以及事件的次数X,并利用贝叶斯公式继续推到出新的实验对分布P(θ|X)的更新。将二项分布的参数θ的先验分布选定为Beta分布后,一个有意思的结果是后验概率P(θ|X)和先验概率P(θ)满足同样的分布律,都是Beta分布,我们把具有这种性质的先验分布和后验分布被叫做共轭分布,由于参数θ是二项分布的参数,因此有时也把Beta分布称作二项分布的共轭先验分布。

当我们往空中投掷的东西由硬币变成骰子时,情况就稍微复杂一些,例如,扔骰子的结果点数有六种可能(骰子有6个面对应6个不同的点数);我们可以对骰子进行N次实验,关于每一个面出现的次数Xface,face∈{1,2,...6}的分布则被称为多项分布Xface ~Multinomial(θ)。多项分布的参数不是一个标量θ,而是一个向量θ=(θ1θ2θ3θ4θ5θ6)T ,并且满足

。要估计这个多项分布参数θ, 按照贝叶斯的观点,这些参数必须有一个先验分布,这个先验分布就是大名鼎鼎的Diriclet分布:

Dir(θ|α)

这个分布也是多项分布的共轭分布,也就是说由这个先验得到的多项分布的后验概率也是一个Diriclet分布。其中α是Dir分布的参数,像Beta(p,q)分布一样,先验分布Dir(θ|α)可以被认为是一个关于骰子各个面出现概率的一个主观认识(你可以设想你已经掷出了100000次,每个面出现的次数,你可以自己随意确定,每一个面这个在思想实验室中出现的次数,就可以认为是先验分布的参数α)。当然如果继续把参数α也看作随机变量的话,这个α服从另一个先先验分布。因此可以看到,不断地把先验分布的参数看作随机变量,将会永远无穷无尽,我们将会得到一个模型,这个模型被称为分层贝叶斯模型(Hierarchical Bayesian Models)。

对于参数θ的推断方法现在被分为两个派别,贝叶斯学派和频率学派。频率学派将θ看作固定的值,样本X是随机的。而贝叶斯学派则认为θ是随机的,样本X则是固定的。在二项分布中,对频率学派而言,估计θ的方法就是计算试验中的频率θ=X/N,贝叶斯统计则采用之前估计二项分布参数的固定模式:先验分布+样本X → 后验分布P(θ|X)的计算。这种贝叶斯计算在特定情况下计算相当容易,特别分布能够明确表示,并且后验和先验是共轭分布时。由于贝叶斯的推断过程可以看作是一种逐渐认识某种现象的过程,即在原来认识(主观猜测)的基础上,新的实验结果能进一步修正完善我们的认识结果,在共轭的情况下,后验分布又可以作为先验,新的样本可以继续更新的到新的后验,这样看来。贝叶斯推断的计算过程跟求解根号2的过程变得几乎差不多了,都是由一个初始(先验分布)值开始,通过寻找一个迭代过程,不断更新(后验分布)新猜测的值的过程。实际上,估计分布参数θ的问题现在被称为统计推断,无论是贝叶斯学派,还是频率学派,推断的任务就是从服从该分布(参数θ未知)的样本集合X中,去判断θ是否落在某个子集之内,更直接的说法就是确定θ的范围。然而,这种由数据去推理得到参数的方法,与亚里士多德的三段式的演绎推理不同,演绎推理从一般性的前提出发,通过推导即“演绎”,得出具体陈述或个别结论的过程,即从一般到特殊。而从样本出发,去推断θ[3]。最核心的问题在于,从宏观上看,样本X仅仅只包含了θ的部分信息而不是全部,一种极端情况就是当把这个分布中的无穷样本都掌握的时候,我们才能说对θ完全了解,但这是不切实际的。在日常生活中,在对某种现象了解不全面时,会有各种各样的理论来解释这个现象,而一旦对情况进一步了解或完全了解后,意见就可能归于一致。一个最典型的例子依然是物理学中对光是波还是粒子的争论,最终归于光的波粒二象性。我们不用完全区分贝叶斯学派和频率学派的区别,贝叶斯学派由于先验的选择引入了主观意识,因此被另一派的人所批评。我的观点是既然贝叶斯看起来这么有用,且符合人们认识事物的方法,为什么不用呢?

具有法国的牛顿之称的拉普拉斯也曾试图解决这个问题,并且表明了一个有趣且合理的结果,即如果θreal是二项分布参数的真实值时,只要试验结果N足够大,θ将以任意接近于1的概率落在真实值θreal附近,现在这个结果被称为”贝叶斯一致性”,这个概念我们在前一季中介绍分类器参数的估计时也见到过。

图4 Pierre-Simon Laplace (1749-1827)

拉普拉斯(Pierre-Simon De Laplace),作为科学家,其在数学、天文领域取得了非凡成就。但是在很多除了科学以外的事情上面,他的则表现的完全是一个趋炎附势、见风使舵的势利小人。 “科学上的伟大成就,加上政治上的见风使舵,给了拉普拉斯幸福的一生” [6]。他灵活多变加的政治才能以及无与伦比的科学才能,使他在法国历史上最为灿烂最动荡的革命年代里历经路易十六,法国大革命,白色恐怖,拿破仑独裁 以及波旁王朝复辟等法国历史上最为重要的时刻,每一次危机他都化险为夷,并且有所收获。拉普拉斯的概率理论在十九世纪的概率论发展史上占据了一个中心和统治地位。在十九世纪,他出版了巨著《分析概率论》,这本书在概率论中的作用,可以与欧几里得的《几何原本》在几何学中,或者牛顿的《自然哲学的数学原理》在天体力学中的作用相媲美。它左右了十九世纪概率论的发展。他完善了古典概率的定义,并使概率论向公理化和公式化方向发展。在此时期内提出的各种平均值的定义和概念,不仅在天文学中得到应用,也为统计学和后来勒让德和高斯(Gauss)建立“最小二乘法”创造了条件。然而,拉普拉斯以及泊松等人“把概率论不加限制地应用于当时的各个领域中去,并常常在证据不充足的情况下做出许多结论性的宣称,这些行为常常使人怀疑概率统计是否是一门自我吹嘘、玩弄笔墨、轻率肤浅的知识。” [6] 在拉普拉斯的时代,人们所理解的概率论就是一门自然科学,是一门应用学科,检验它的价值的重要标准是它在实践中的有效应用,而不是其自身的严格和逻辑上的相容。而在数学的其他领域,以分析学为代表的数学的严格化进程正如火如荼的进行,概率论和统计推断显得几乎无人问津了,研究误差和高斯和其他类型的分布则成为了古典概率完成以后100多年里的主要工作。

5.极大似然估计

可以看到,直到十九世纪的大部分时间里,数学(包括统计学)的重心依然在欧洲大陆的法国和德国,那里有全世界最顶级的数学家拉格朗日,拉普拉斯,傅立叶,高斯,柯西以及之后的庞加莱。直到19世界末,统计学(不包括其他数学)开始在英国取得了突破性进展。一系列现在我们常用的工具和技巧被发明出来,例如高尔登用统计方法研究遗传学,导致了回归和相关的发现,并由另一位大师卡尔皮尔逊(Karl Pearson)发展起来。卡尔皮尔逊是公认的当之无愧的现代统计学的奠基人,除了回归分析中的理论创造外,他最大的成就是他几乎培养了整个现代统计学奠基人,这些人包括发现t分布的哥色特(笔名student),假设检验和置信区间理论的奠基人奈曼和皮尔逊,时间序列分析的奠基人之一约尔,还有20实际最伟大的统计学家,小样本统计学的奠基人费歇尔(Ronald Aylmer Fisher)。英国人能够取得这些成就,必须要感谢查尔斯·罗伯特·达尔文,这位进化论的创始人,他在英国乃至全世界的的影响使得很多统计学家开始研究以物种为代表的各种遗传进化理论的生物统计,由高尔登,皮尔逊发起并成立的一个权威期刊《Biometrika》(生物计量)以此为目的,现代统计学大楼逐渐建立起来了。在哥色特和费歇尔之前,所有的统计方法都是大样本的,统计学研究的主题是社会人口以及生物,样本数量很大,而且大家都默认统计问题自然是大样本,几乎是不言而喻。随着统计应用领域的扩张,很多情况下无法获得大数据量的样本,因此如果在统计研究中,明确的把的成分去掉,则这种统计方法是小样本的。因此,N只要不要求趋于,这种方法都可看做是小样本统计方法。费歇尔最为现代统计学的开拓者自然与他的老师,作为旧统计学的捍卫者卡尔皮尔逊产生了不少冲突,他在方差分析、假设检验等理论方面均做出了开创性的重要贡献。

图5 Karl Pearson(1857~1936) 和 Ronald Aylmer Fisher(1890-1962)

对本文来说,我们感兴趣则是类似于二项分布参数推断的问题,参数估计和假设检验是现代统计学的量大基础。假设检验的历史是从20世纪才开始,而参数估计则几乎与概率统计的历史一样漫长。在20世纪之前,估计参数分布的方法除了之前介绍的贝叶斯方法以外,就只有最小二乘法了。皮尔逊和费歇尔这两位关系不怎么样的师徒则分别提出了两种重要的参数估计方法,矩法和最大似然估计法。最大似然估计方法(Maximum Likelihood Estimation, MLE)出现在1912年由费歇尔发表的第一篇统计学论文:《关于拟合频率曲线的一个绝对准则》[3,8]。不用说,从题目上你就能判定费歇尔是一个频率学派的支持者。现在,最大似然估计方法被认为是应用最广泛的参数估计方法,在机器学习领域的每个人都了解这个方法。

为了进一步弄清频率学派的最著名参数估计方法与之前贝叶斯方法的不同,我们仍以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为θ,即每次实验事件发生的概率,不妨设为是得到正面的概率。采用最大似然估计,需要引入一个似然函数的概念。似然函数(likelihood),似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性,也就是结果没有产生之前依据环境所对应的已知参数θ,来预测某件事情发生的可能性。似然则不同,它是在确定的试验结果的情况下,去推测产生这个结果的可能环境(参数)[9]。与贝叶斯推断假定参数θ是一个服从均匀分布的随机变量不同,最大似然法的前提是参数θ是一个未知的固定值。似然法假定在这个值给定的情况下,通过实验可得到一个结果,那么反过来说,使事件X发生的可能性最大的那个参数

,就应该是我们要找的参数了。因此,这里需要定义一个可能性函数,这是一个关于θ函数,即似然函数定义为:

L(θ|X)=p(X|θ)

也就是说这种可能性依然采用了条件概率的方式来定义。尽管两者在数值上相等,但是意义并不相同,L 是关于 θ 的函数,X是实验结果。而 P则是关于 X的分布,是分布的参数,两者从不同的角度描述一件事情。现在我们的问题是如下的优化问题:

在N重伯努利试验后,每一重的结果可记作 xi ,整个事件x=[x1,x2,...xN], 似然函数考虑的是整个X出现时θ的最大似然(可能性)。在假定每次事件都是独立的情况下可以得:

因此,在似然函数的表达式中通常都会出现连乘:对多项乘积的求导往往非常复杂,但是对于多项求和的求导却要简单的多,对数函数可以将乘积转换为加减式,这可以大大简化求导的过程,这里我们定义了一个新的似然函数,对数似然:

其中n1表示实验结果为1(正面朝上)的次数。根据极值点导数为零,似然函数的极值点为:

这个结果太美妙了,如果我们做20次实验,出现正面n1=12次,反面n0=8次,那么根据最大似然估计得到参数值θml为12/20 = 0.6,这个参数完全依赖于实验,而没有任何先验知识,这简直就是频率的完美对应,也难怪那篇原始的论文中将最大似然法称为频率曲线的一个绝对准则。

然而,费歇尔这样的伟大的统计学家,对贝叶斯理论中的先验一直持反对态度,这也导致了贝叶斯统计发展的限制。他曾经提出过一个问题反驳贝叶斯理论:如果对θ一无所知,那么对θ^2也是一样,θ^2也应该服从均匀分布,这又与服从均匀分布矛盾[3]。然而,他们怎么也会不想到,1958年由这些频率学派的科学家们成立的国际权威性的统计杂志《Biometrika》(生物计量),全文重新刊载了本文开头的那篇由普莱斯宣读的贝叶斯在200多年前文章《An essay towards solving a problem in the doctrine of chances》。从那时开始,随着一种在二战时期形成了一个新的计算方法蒙特卡洛方法的出现,贝叶斯理论真正意义上使自己站到了统计舞台的中央。

参考文献

[1] Bayes Thomaslate Rev. Mr. Bayes, F. R. S.and Price Mr. Price LII. An essay towards solving a problem in the doctrine of chances. By the late Rev. Mr. Bayes, F. R. S. communicated by Mr. Price, in a letter to John Canton, A. M. F. R. S53Philosophical Transactions of the Royal Society of London http://doi.org/10.1098/rstl.1763.0053

[2]Hooper M . Richard Price, Bayes' theorem, and God[J]. Significance, 2013, 10(1):36-39.

[3]陈希孺 数理统计学简史,湖南教育出版社 2002

[4]何佳薇. 贝叶斯统计理论的形成及发展[D].山西师范大学,2015.

[5]如何通俗理解 beta 分布?https://www.zhihu.com/question/30269898/answer/123261564

[6]王幼军, 拉普拉斯概率理论的历史研究,上海交通大学出版社.2007

[7]岩泽宏和 改变世界的134个概率统计故事湖南科技出版社2016

[8]戴维·萨尔斯伯格 著,刘清山 译 女士品茶——20世纪统计学怎样变革了科学, 江西人民出版社, 2016

似然与极大似然估计 http://fangs.in/post/thinkstats/likelihood

本文为SIGAI原创

如需转载,欢迎发消息到本订号

全文PDF见http://www.tensorinfinity.com/paper_162.html

原文发布于微信公众号 - SIGAI(SIGAICN)

原文发表时间:2019-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券