2000字详解:极大似然估计, 最大后验概率估计

MLE&MAP

1 概率

常说的概率是指给定参数与模型后,预测即将发生的事件的可能性。

2 似然概率、似然函数

统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的

概率值相等,所以经常用

来表示似然函数,当给定θ的取值

后,

的概率值,我们称为似然概率。

3 极大似然估计(MLE)

估计量与估计值经常容易混淆,估计量是个变量,比如说人类平均身高u,也可以说是期望,我们经常用

作为估计量,因为抽取的样本的差异,观测样本不同使得每次求取的值不一样,这就成为期望的估计量,估计值是确切的某个值,用观测样本求其均值,可以称为整体期望的估计值。极大似然估计是求取估计值。 极大似然估计步骤:

  1. 确定数据分布,写出似然函数
  2. 取log
  3. 求导取极值,找到极大值点
  4. 求出估计值 例如

似然函数:联合概率密度函数

,称为数据集D的似然函数

根据极大似然估计,找到是的似然函数最大的参数值作为参数的估计量

两边同时取对数,便于参数求解

求导,如果似然函数可导,则求取导数为0的的点,即可求得参数估计量,如果更严谨的话,似然函数可能并只有一个值为0的点,可能存在拐点,或者极小值点,这个时候需要进一部判断这个点是极大值点还是极小值点还是拐点。

思考一下,为什么极大似然估计要累乘?为什么要取极大值?

我们对库里与追梦格林做统计,发现在库里命中的基本都是三分球,而格林基本没有三分,大多数都是二分球。如果你在吃饭没来得及看电视,突然听见主播说:哇~三分 一箭穿心。你会认为是格林投的还是库里投的?显然这球最有可能是库里投的,因此P('三分'|'库里')>p('三分'|'格林').

因此经过我们分析推断,估计出这球是库里投的。我们根据大量的先验知识来做出猜测,推断出下次命中球的分数观测数据判断最有可能是哪个球员参数造成的。推断的过程其实就是求取估计值的过程。现在我们明白了为什么要对似然函数取极大,即使格林也能投进三分球,但是我认为库里投进机会(概率)最大,所以下次三分球观测数据来了,我就认为是参数库里投的,这是最可能接近真实球员参数的是最似然的。

为什么要累成呢?上面我们只考虑一个观测数据,如果出现一组观测数据:"3,2,2,3,3,3,3".假设这是由对球员一场比赛的进球统计,你会认为这组分数是哪个球员投进的?P(3,2,2,3,3,3,3|球员),同样的思路,既然这组参数能在众多数据组合中出现,我认为它出现的概率最大。

这里可能难以理解,其实可以这样认为,一个事件能够发生说明本身就是大概率事件,发生的就是最可能的,造成这个事件发生的因素就是待估计参数,因此我们可以推断出(计算估计量与估计值)是哪个因素造成了这个事件发生,即使可能不准但是大致差不多(似然)。

因此只要计算P(3,2,2,3,3,3,3|球员)极大值,就可以计算出球员估计量。累成的原因是因为这些数据我们假设是独立同分布的。所以为了计算方便写成累乘。

做个总结,极大似然估计其实就是首先确定,这个事件发生了,那么他的概率比事件发生的概率大,至于是什么造成了它发生的概率大呢?是哪个因素呢?这个过程就是求解估计值的过程。不是因为这个事件的概率大而导致这个参数必须是某个值,而是因为这个值导致了这个事件发生的概率大。

4 最大后验概率估计(MAP)

极大似然估计,估计参数是为了使似然函数P(X|θ)最大(这里X 你可以看作只有一个数的变量,也可以看作数的集合,抽象的看待它),而最大后验概率是为了使得P(X|θ)P(θ)最大。

首先什么是后验概率,先验概率是我们一种假设,假设硬币均匀则正面概率为0.5,这就是先验概率。事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

这里其实就变成了要求P('分数'|'球员')P('球员')最大,P('三分'|'库里')P('库里'),这里其实多考虑了一个因素,我知道你库里三分准,但是你出场次数也得多吧,如果你出场次数少,那我完全可以认为是格林投的(起到了一定的惩罚作用,这里有正则化的味道,仅仅个人理解),根据贝叶斯公式最大后验概率最大化的是:

因为观测数据已知,所以P(X)是定值,所以可以不用考虑进去。说到这里,当然两者都是估计参数值的方法,我个人觉得还是最大后验概率更能说服我,根据已经观测的数据,求解出是哪个球员参数的可能性最大。

就是求P('球员'|3,2,2,3,3,3,3),哪个球员概率大,我就估计是他。跟我们做分类模型验证有点像,把观测数据看作特征,已知特征造哪个类别造成最大概率则认为是哪个类。

理论的概念理解难免主观性比较强,希望有争议的地方能够提出来一起讨论。

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

PyMC3和Theano代码构建贝叶斯深度网络,61页PPT探索贝叶斯深度学习以及实现

【导读】近日,Novartis的数据科学家Eric J. Ma进行了一次关于贝叶斯深度学习理论和实现的演讲,演讲题目是《An Attempt At Demyst...

33770
来自专栏AI研习社

Facebook介绍ICCV2017收录论文,其中五分之一都有何恺明的名字(附下载链接)

本周,全球的计算机视觉专家们即将齐聚威尼斯参加 ICCV (International Conference on Computer Vision)2017,展...

34190
来自专栏腾讯高校合作

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议, 12 月 3 日至 8 日在加拿大蒙特利尔举办。 腾讯AI...

8110
来自专栏AI科技评论

【干货】雾霾太重?深度神经网络教你如何图像去雾

编者按:本文作者蔡博仑,华南理工大学在读博士研究生。主要研究方向,机器学习,计算机视觉,图像处理等。 导读 北京城被中度污染天气包围,到处都是灰蒙蒙一片——雾霾...

60980
来自专栏AI科技大本营的专栏

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

32130
来自专栏AI科技评论

学界 | 腾讯AI Lab 20篇论文入选NIPS2018,含2篇Spotlight

被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。

11220
来自专栏大数据文摘

AI角 | AI challenger零样本学习算法大赛报名开启,数据集开放

17620
来自专栏大数据挖掘DT机器学习

常用连续型分布介绍及R语言实现

作者:张丹(Conan), 程序员Java,R,PHP,Javascript blog: http://blog.fens.me 随机变量在我们的生活中处处可...

52660
来自专栏大数据挖掘DT机器学习

文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

1.3K130
来自专栏数据科学与人工智能

【陆勤学习】文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

30490

扫码关注云+社区

领取腾讯云代金券