专栏首页从流域到海域最大似然估计(Maximum Likelihood Estimation) - 机器学习基础

最大似然估计(Maximum Likelihood Estimation) - 机器学习基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Solo95/article/details/90730422

内容总结自自花书《deep learning》Chapter 5.5,由英文版翻译而来。英文版官网可以免费查阅:http://www.deeplearningbook.org/

评估器(estimators)从何而来?相较于猜测某个函数可能产生一个好的估计器,然后再分析其偏差和方差,我们更愿意拥有一些原则,可以用来推导针对不同模型的好的估计器的特定函数。

最常用的这种原则就是最大似然原则(maximum likelihood principle)。

一种对最大似然估计的解释是将其看做是对模型的分布和训练集所定义的实验分布p^data\hat{p}_{data}p^​data​的差异的最小化。差异的程度使用Kl散度来衡量。

最小化KL散度恰恰对应于最小化分布之间的交叉熵。很多作者会对伯努利分布和softmax分布的负log似然使用交叉熵这个术语,这实际上是错误使用。任何包含负log似然的loss函数都是训练集定义的实验分布和模型定义的概率分布的交叉熵。例如,MSE是实验分布和高斯模型的交叉熵(原书前面有详细推导过程,证明了最小化高斯模型的交叉熵和最小化MSE是一致的,5.5.1也有一个类型的推导过程。)。

这样我就得到了不管是最大化似然还是最小化KL散度都是在得到最优的θ\pmb{\theta}θθθ。最大似然这样就变成了最小化负log似然(NLL),或者等价的,交叉熵的最小化。把最大似然看作是KL散度的最小化是非常有帮助的,因为KL散度有一个已知的最小值0,而负log似然实际上在x\pmb{x}xxx是实数值时可以是负的。

最大似然的性质

最大似然主要的吸引力在于它可以被证明是最好的估计器逼近,当样本数量m趋近于无穷时,它收敛的比率随着m增大而增大。

在以下两个条件下,最大似然估计器具有一致性(consistency)的性质:

然而,具备一致性的估计器在统计效率(statistical efficiency)上可以是不同的,这意味着一个一致估计器在固定数量上的m样本上可以取得低泛化误差(generalizarion error),或者等价地说,只需要更少的样本就足以取得固定水平的泛化误差。

统计效率通常在在有参(parametric case)情况下被研究。

Cramér-Rao lower bound (Rao, 1945; Cramér, 1946)证明了没有其他的一致性估计器能比最大似然估计器取得更低的MSE。

因为一致性和高效性,最大似然通常是使用机器学习的首选估计器。当样本数量足够小以至于会产生过拟合时,可以采用诸如权重衰减等正则策略来得到一个具有更小方差的最大似然的有偏版本,尤其是在训练数据受限时。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 为什么使用交叉熵作为损失函数?

    版权声明:本文为博主原创文章,未经博主允许不得转载。 ...

    Steve Wang
  • Divide and Conquer

    The phrase is attributed to Julius Caesar, Philip II, king of Macedon(382-336 BC...

    Steve Wang
  • 序列模型第一周作业3: Improvise a Jazz Solo with an LSTM Network

    Welcome to your final programming assignment of this week! In this notebook, you...

    Steve Wang
  • 最小二乘法原理(中):似然函数求权重参数

    在上一篇推送中我们讲述了机器学习入门算法最小二乘法的基本背景,线性模型假设,误差分布假设(必须满足高斯分布)然后引出似然函数能求参数(权重参数),接下来用似然函...

    double
  • 极大似然估计法的理解指南

    极大似然估计是 1821 年由高斯提出,1912 年由费希尔完善的一种点估计方法。

    用户1737318
  • 简述极大似然估计

    极大似然估计是一种参数估计的方法。 先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。 即它的核心思想是:找到参数 θ 的一个估计...

    杨熹
  • 似然函数和最大似然估计

    似然函数以及最大似然函数在机器学习中是一个比较重要的知识点。本文从什么是似然函数以及似然函数的定义引入最大似然函数,最后通过简单的抛硬币例子来更加具体的说明。

    触摸壹缕阳光
  • 极大似然公式证明

    通过经验风险最小化推导极大似然估计,证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计 ? 字有点丑,多多担待啦(∩ơ ㅅ ơ...

    云时之间
  • ReviewBoard实现自动post-commit,rbt命令在svn hooks中执行出错

    在svn hooks中使用RBTools工具的rbt post命令向Reviewboard自动提交review request(评审请求)

    donghui
  • uni-app学习笔记-uni.request请求和渲染页面(九)

    前端最主要的还是将数据从后端请求过来,对数据进行处理,并且渲染在界面, 前面讲到了uni-app请求接口跨域问题https://www.jianshu.com...

    王小婷

扫码关注云+社区

领取腾讯云代金券