2000字详解:极大似然估计, 最大后验概率估计

MLE&MAP

1 概率

常说的概率是指给定参数与模型后,预测即将发生的事件的可能性。

2 似然概率、似然函数

统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的

概率值相等,所以经常用

来表示似然函数,当给定θ的取值

后,

的概率值,我们称为似然概率。

3 极大似然估计(MLE)

估计量与估计值经常容易混淆,估计量是个变量,比如说人类平均身高u,也可以说是期望,我们经常用

作为估计量,因为抽取的样本的差异,观测样本不同使得每次求取的值不一样,这就成为期望的估计量,估计值是确切的某个值,用观测样本求其均值,可以称为整体期望的估计值。极大似然估计是求取估计值。 极大似然估计步骤:

  1. 确定数据分布,写出似然函数
  2. 取log
  3. 求导取极值,找到极大值点
  4. 求出估计值 例如

似然函数:联合概率密度函数

,称为数据集D的似然函数

根据极大似然估计,找到是的似然函数最大的参数值作为参数的估计量

两边同时取对数,便于参数求解

求导,如果似然函数可导,则求取导数为0的的点,即可求得参数估计量,如果更严谨的话,似然函数可能并只有一个值为0的点,可能存在拐点,或者极小值点,这个时候需要进一部判断这个点是极大值点还是极小值点还是拐点。

思考一下,为什么极大似然估计要累乘?为什么要取极大值?

我们对库里与追梦格林做统计,发现在库里命中的基本都是三分球,而格林基本没有三分,大多数都是二分球。如果你在吃饭没来得及看电视,突然听见主播说:哇~三分 一箭穿心。你会认为是格林投的还是库里投的?显然这球最有可能是库里投的,因此P('三分'|'库里')>p('三分'|'格林').

因此经过我们分析推断,估计出这球是库里投的。我们根据大量的先验知识来做出猜测,推断出下次命中球的分数观测数据判断最有可能是哪个球员参数造成的。推断的过程其实就是求取估计值的过程。现在我们明白了为什么要对似然函数取极大,即使格林也能投进三分球,但是我认为库里投进机会(概率)最大,所以下次三分球观测数据来了,我就认为是参数库里投的,这是最可能接近真实球员参数的是最似然的。

为什么要累成呢?上面我们只考虑一个观测数据,如果出现一组观测数据:"3,2,2,3,3,3,3".假设这是由对球员一场比赛的进球统计,你会认为这组分数是哪个球员投进的?P(3,2,2,3,3,3,3|球员),同样的思路,既然这组参数能在众多数据组合中出现,我认为它出现的概率最大。

这里可能难以理解,其实可以这样认为,一个事件能够发生说明本身就是大概率事件,发生的就是最可能的,造成这个事件发生的因素就是待估计参数,因此我们可以推断出(计算估计量与估计值)是哪个因素造成了这个事件发生,即使可能不准但是大致差不多(似然)。

因此只要计算P(3,2,2,3,3,3,3|球员)极大值,就可以计算出球员估计量。累成的原因是因为这些数据我们假设是独立同分布的。所以为了计算方便写成累乘。

做个总结,极大似然估计其实就是首先确定,这个事件发生了,那么他的概率比事件发生的概率大,至于是什么造成了它发生的概率大呢?是哪个因素呢?这个过程就是求解估计值的过程。不是因为这个事件的概率大而导致这个参数必须是某个值,而是因为这个值导致了这个事件发生的概率大。

4 最大后验概率估计(MAP)

极大似然估计,估计参数是为了使似然函数P(X|θ)最大(这里X 你可以看作只有一个数的变量,也可以看作数的集合,抽象的看待它),而最大后验概率是为了使得P(X|θ)P(θ)最大。

首先什么是后验概率,先验概率是我们一种假设,假设硬币均匀则正面概率为0.5,这就是先验概率。事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

这里其实就变成了要求P('分数'|'球员')P('球员')最大,P('三分'|'库里')P('库里'),这里其实多考虑了一个因素,我知道你库里三分准,但是你出场次数也得多吧,如果你出场次数少,那我完全可以认为是格林投的(起到了一定的惩罚作用,这里有正则化的味道,仅仅个人理解),根据贝叶斯公式最大后验概率最大化的是:

因为观测数据已知,所以P(X)是定值,所以可以不用考虑进去。说到这里,当然两者都是估计参数值的方法,我个人觉得还是最大后验概率更能说服我,根据已经观测的数据,求解出是哪个球员参数的可能性最大。

就是求P('球员'|3,2,2,3,3,3,3),哪个球员概率大,我就估计是他。跟我们做分类模型验证有点像,把观测数据看作特征,已知特征造哪个类别造成最大概率则认为是哪个类。

理论的概念理解难免主观性比较强,希望有争议的地方能够提出来一起讨论。

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

115页Slides带你领略深度生成模型(Deep Generative Model)全貌

【导读】当地时间 7 月 13 - 19 日,备受关注的 AI 顶级国际会议 IJCAI 在瑞典斯德哥尔摩举行。在这次会议上,人工智能和机器学习领域的研究者为我...

1650
来自专栏大数据文摘

AI角 | AI challenger零样本学习算法大赛报名开启,数据集开放

1482
来自专栏专知

【干货】Google GAN之父Ian Goodfellow ICCV2017演讲:解读生成对抗网络的原理与应用

【导读】当地时间 10月 22 日到10月29日,两年一度的计算机视觉国际顶级会议 International Conference on Computer V...

4515
来自专栏大数据挖掘DT机器学习

文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

1K12
来自专栏AI科技大本营的专栏

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

2523
来自专栏小小挖掘机

用Deep Recurrent Q Network解决部分观测问题!

好了,回到正题!我们都知道,深度Q网络(Deep-Q-Network)最初是应用在让机器人打游戏,状态的输入常常是前几个画面的截图,但是有时候仅仅靠前面画面的图...

1244
来自专栏腾讯高校合作

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议, 12 月 3 日至 8 日在加拿大蒙特利尔举办。 腾讯AI...

641
来自专栏AI科技评论

CVPR 2018 中国论文分享会之 「GAN 与合成」

AI 科技评论按:2018 年 5 月 11 日,由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中...

1092
来自专栏AI科技评论

学界 | 腾讯AI Lab 20篇论文入选NIPS2018,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

952
来自专栏腾讯技术工程官方号的专栏

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

? 被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。 ...

13.5K3

扫码关注云+社区