最大似然估计的2种论证

前面(一步一步走向锥规划 - 最小二乘法)对最小二乘法OLS进行了描述,并且使用最大似然估计Maximum Likelihood Estimation, MLE,论证了在残差符合正态分布情况下, 最小二乘法和最大似然估计有一定的等价性。

引言

言必有高斯, 从高斯开始最大似然原理一直就广泛被接受了, 譬如高斯在发明之后, 就依据这个原理反推出正态分布 (可以参考Rickjin的“正态分布的前世今生”)。 但是最大似然估计,却是在经典统计的极大成者费希尔Fisher的带领下(参考“Lasso简史”),走到世人面前。 之间的差别就是, 高斯直接用了, 而Fisher穷尽一生试图去证明最大似然估计。

历史上, 知名大牛,贵如 高斯, 拉格朗日(参考 一步一步走向锥规划 - 二次规划 ), 丹尼尔.伯努利参考(参考 变分の美 ), 拉普拉斯(参考 拉近似 )统统直接使用过最大似然的思想。 其实你认识了乘法原则, 对数性质之后, 最大似然估计的过程似乎就非常直观了。

独立事件的乘法原则

对数化乘法为加法

最大似然估计的流程

但是, 你要证明最大似然估计,的确不是那么容易的事情。 我们知道, 所有的估计都是从曲线(直线)拟合开始发展起来的。 高斯的最小二乘法(1809)独霸了差不多100年后, 皮尔逊提出了矩估计的思想(1898),皮尔逊认为自己找到了比最小二乘法更为简单的工具。 而差不多10年之后费希尔, 一个大三的学生(1912年),就靠一片文章开启了最大似然估计的建立过程“An absolute criterion for fitting frequency curves”,坚信自己能发展最直观的工具, 然后它的证明却穷尽其一生, 维基百科上称之为“proofs”。 关于这部分内容超级庞大, 以后有机会再展开介绍。

这样, 我们知道最小二乘法比矩估计早90年,而矩估计比严格的最大似然估计早10年左右。 但是, 某种意义上, 最小二乘法和最大似然的原始思想, 以及正态分布的有着千丝万缕的联系, 而更为严格的最大似然估计又是建立上对矩估计的深入认识的基础上的。 所以,圈子就好玩起来了。

当然这里, 我们并不考虑, 重复费希尔Fisher的论证过程, 我们说的2种论证,是统计充分发展以后更为流行的论证过程。 这是我们从小到大一贯的手法, 没有历史发展过程的数学灌输, 会显得高大上些,嘿嘿。

论证1:从矩估计认识最大似然估计

1.1 矩估计方法

我们知道矩估计是皮尔逊发明的, 皮尔逊发明MME, X^2,PCA等方法都是有一定的内在联系的。

但是矩估计的确简单, 当参数估计里面有k个参数的时候, 就把前k个理论上的矩的表达式和样本矩建立等价关系, 就得到k个等式, 然后就可以求解k个位置参数。

1.2 神奇的替换

如果,我们选择特殊的替代函数来进行矩估计, 我们可以得到最大似然估计的目标公式。

这样的替换会带来什么变化呢? 首先我们看样本矩:

利用导数线性通过的特性, 我们替换后得到样本矩就是似然函数的导数。 某种意义上,也就是为什么我们要进行这个替换的原因了。

那么, 理论计算的矩呢?通过如下计算,我们发现理论一阶矩居然为0。

那么, 一阶矩估计的含义是什么呢? 直观上来说,通过样本矩为0, 得到了似然函数的导数为0.

根据极值和导数的关系, 我们就知道是求解的似然函数的极值(蕴含极大值)。

所以, 对函数h(x)的对数一阶导函数的矩估计就是极大似然估计。

所以从这个论证出发, 要求密度函数存在, 可导的情况下, 极大似然估计就可以利用一阶矩估计实现了。

论证2: 从最大熵认识最大似然估计

前面,“信息熵的由来”里面, 简介了信息熵的简史, 并且在“66天写的逻辑回归” 引里面对如何从最大熵来Maximum Entropy, ME 论证最大似然估计MLE进行了描述, 这里挖出来概述下下。

我们知道最大熵是求解限制条件下最稳定解的经典思路。 那么怎么把参数求导问题变化成一个限制条件下的最优问题呢?

2.1 构造数据限制下的经验分布

假设有一堆数据, 我们根据这些数据来构造一个经验分布函数, 这里需要用到点技巧, 引入狄拉克函数, 或者指示函数。

首先通过狄拉克函数, 利用大数定理的思想, 使用频率近似概率的思想, 构建一个经验分布。 然后将这个经验分布, 和带参数的分布进行最佳拟合。

2.2 最大相互熵

而, 我们知道要让两个分布最接近, 在数学上使用KL距离, 而KL距离的本质就是负的相互熵。 那么根据最大相互熵, 或者最小KL距离的原则,就可以进行参数求解了。

相互熵的表达式

最大相互熵等价于最小KL距离

我们把构建的经验分布带入相互熵的计算, 很容易也能得到似然函数的表达式:

那么根据最大相互熵,就能推导到最大似然估计。

2.3 最大相互熵和最大似然的等价性

如果我们把上述推理,整理一下, 我们可以得到如下表达式, 一旦数据给定以后, 那么构造的经验分布就给定了, 那么经验分布的熵就固定了, 那么最大相互熵和最大似然估计, 在这种情况下就等价了。

对应到图形上, 可以有如下图形:

这个等价关系的意义重大, 在EM算法和Hinton对VB的简化中都会用到这个性质(参考:乔丹上海行随机眼里的临界)。

EM算法可以解毒为如何交替的移动下限, 进行逼近

小结

这里, 给出了最大似然估计的2种论证, 第一种是延续经典统计里面的思想。 而第二种估计,是在伟大的杰恩斯Jaynes开创了逻辑上的统计解释(参考 信息熵的由来),或者说基于最大熵重建了贝叶斯统计之后的思想。

参考:

Stephen M. Stigler, The Epic Story of Maximum Likelihood,2007

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2017-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

「数据科学家」必备的10种机器学习算法

编译 | 嗯~是阿童木呀、KABUDA、EVA 可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,...

30150
来自专栏人工智能

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

37450
来自专栏专知

【干货】深度学习中的数学理解— 教你深度学习背后的故事

【导读】如今,深度学习在各项任务中所向披靡,比如图像识别,语音处理和自然语言处理。但是,深度学习的理论探讨却比应用滞后好几个数量级,一方面是做应用马上能见效,然...

31570
来自专栏机器之心

就喜欢看综述论文:情感分析中的深度学习

71390
来自专栏目标检测和深度学习

94页论文综述卷积神经网络:从基础技术到研究前景

机器之心编译 参与:Panda 卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大...

39370
来自专栏机器之心

计算机视觉这一年:这是最全的一份CV技术报告

33960
来自专栏机器之心

学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

39160
来自专栏华章科技

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

8510
来自专栏华章科技

94页论文综述卷积神经网络:从基础技术到研究前景

导读:卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大学电气工程与计算机科学系的 ...

8320
来自专栏PaddlePaddle

卷积神经网络的压缩

正文部分系《解析卷积神经网络——深度学习实践手册》基础理论篇部分,本次将介绍卷积神经网络压缩的具体途径

13220

扫码关注云+社区

领取腾讯云代金券