贝叶斯学习

贝叶斯学习

先说一个在著名的MLPP上看到的例子,来自于Josh Tenenbaum 的博士论文,名字叫做数字游戏。

用我自己的话叙述就是:为了决定谁洗碗,小明和老婆决定玩一个游戏。小明老婆首先确定一种数的性质C,比如说质数或者尾数为3;然后给出一系列此类数在1至100中的实例D= {x1,...,xN} ;最后给出任意一个数x请小明来预测x是否在D中。如果小明猜错了就要去洗碗,当然,如果猜对了就下饭馆吃。

举个例子,当D={16, 8, 2, 64},小明会猜测发起者给出的C是2的n次方或者偶数的形式,因此如果x=32时,小明马上会很确定答案应该是YES。是但如果x是10的话,小明可能会稍微有些犹豫了。不过幸运的是,小明是个码农,贝叶斯学习的算法给小明提供了一个判断的工具。它基本的思想是最终的概率(后验概率)正比于似然概率(likelihood)和先验概率(prior)的乘积

(1)似然概率

在此例中,再假设均匀取样时,很明显似然概率由以下公式给出:

即样本空间越大,取到某一个特定集合的概率越小。

(2)先验概率

先验概率代表着对似然概率的一种补充。他可以由历史资料得出,也可以由经验来得出。在此例中,假如D = {16,8,2,64},那么小明可以得到两种可能的h。一个是2的n次方,另一个是2的n次方除去32。如果只考虑似然概率的话,后一种情况的概率明显更大,但由生活经验我们可以知道除非老婆非常变态,否则不太可能出第二种那么道德沦丧的集合。因此我们给予“正常”的集合相对大的先验概率,“不正常”的反之,使得最终的结果更加符合我们的经验。

(3)后验概率

基本的贝叶斯公式相信大家都很清楚了。使用的时候由于分母是定值,因此只要判定分子就可以了。即先验概率和似然概率的乘积

下图是具体的展示。

可以看到即使第二种假设的似然概率更大,但是后验概率是第一种更大,这是符合大家的经验的。

(可惜的是,这个故事的结果是后一种假设正确,小明又愉快地去洗碗了)

先验概率的加入可以使我们应对“黑天鹅事件”的发生。

现在我们看看在数学模型下具体的描述。

1. 贝塔-二项分布

首先又是万年不变的丢硬币的例子:小明和老婆抛硬币决定谁洗碗,小明总是担心老婆在硬币上动了手脚,他决定利用以往的数据估算硬币正面朝上的概率。

假设硬币的朝向服从伯努利分布,在一系列的投掷过程中,有N1次正面朝上,N0背面朝上,则能够很轻易得出此次抛投的概率:

当然这是对任意一次的抛投过程来说的,如果我们知道某一次投掷过程的具体的结果,想求出现这次结果的概率,前面就需要乘以一个组合的系数,即

问题的关键在于,先验概率应该如何确定。理论上来说任何一个在[0,1]上支撑的分布函数都能够符合条件,但是小明希望能够使结果尽可能地简化。最理想的情况,就是先验分布和似然分布拥有相同的形式,即:

那么后验分布可以很轻易地得到:只需要把指数相加即可

计算果然很简单,想到这里,小明幸福地留下眼泪。

幸运的是,有一个很常见的分布正好满足这种形式,它就是 Beta 分布。

具体来说,如果我们对先验的分布一无所知的话,令a=b=1即可。如果想附加信息进入的话,则可以通过计算得出具体的参数值。在MLPP中给出的例子是,如果我们认为先验分布θ

具有0.7的方差和0.2的标准差,则令a=2.975,b=1.275。

下图是我在R语言中展示的几个Beta函数的密度函数。

一个比较直观的理解方式是,先验分布的加入相当于一个伪计数(pseudo counts)。先验信息的加入相当于预先按照先验分布的设定投掷了一定数量的硬币,最后的结果也就是实际投掷结果和先验分布的综合。

那么问题来了,小明在之前20次的投掷硬币中,一共投出了3次正面。理论上说硬币朝上的概率约为15%。但此时出于对老婆良心的肯定,我们设定先验分布为Beta(4,4)。那么硬币朝上的概率会被提高到20%以上(不过还是很低,小明感到一阵心酸)

那么加入先验分布的意义是什么呢?相信大家都知道“黑天鹅事件“这个俗语。比如说连续投掷5次硬币每次都为正面的概率非常小,但是一旦发生,那么硬币朝上的似然概率就为1,这样似乎会违背我们的常识。但是如果我们加入一个均值为0.5的先验分布,就能够将正面朝上的概率往0.5“拉”一点,这样就能够有效地应对“黑天鹅事件”的发生。


原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-10-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【干货】18个技巧实战深度学习,资深研究员的血泪教训

【新智元导读】资深工程师 Nikolas Markou 回顾他多年来在一线使用深度学习的经验,总结出 18 个能让你充分发挥深度神经网络潜力的诀窍,简洁明了,直...

3227
来自专栏新智元

当贝叶斯,奥卡姆和香农一起来定义机器学习

令人有点惊讶的是,在所有机器学习的流行词汇中,我们很少听到一个将统计学、信息理论和自然哲学的一些核心概念融合起来的短语。

903
来自专栏CreateAMind

关于深度学习的机理,优化和网络结构的一些个人观点

博士一把年纪,理论物理已经没心读下去了,不知廉耻来知乎卖萌,还是深度学习卖萌,才转行半年多就敢出来卖,好羞耻呀~喵~

942
来自专栏人工智能头条

深度学习在自然语言处理的应用

1483
来自专栏算法channel

一文了解自然语言处理的每个范畴用到的核心技术,难点和热点(1)

希望时间的流逝不仅仅丰富了我们的阅历,更重要的是通过提炼让我们得以升华,走向卓越。 1电影Her见识NLP 可能很多朋友看过好莱坞的电影《Her》,电影中讲述...

3736
来自专栏AI研习社

神经网络有什么理论支持?

三秒钟理解本文主旨: 问:神经网络有什么理论支持? 答:目前为止(2017 年)没有什么特别靠谱的。 下面是正文。 [本文主要介绍与神经网络相关的理论工作。 个...

4106
来自专栏AI2ML人工智能to机器学习

攒说 Geoff Hinton

大家都知道深度学习的鼻祖Geoff Hinton, 传说, 他安静的办公室, 经常会突然传出一句很大声的自言自语, 就是 我现在终于理解大脑怎么工作的啦(I u...

481
来自专栏专知

逻辑回归和深度神经网络:哪个更适合你?

【导读】简单的逻辑回归于复杂的深度神经网络都广泛应用于各种分类场景,但是针对不同的任务到底哪种模型更适合呢?本文从参数量和特定数据的使用两方面来阐述两种模型的区...

3299
来自专栏新智元

Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)

【新智元导读】机器翻译是深度学习技术最切近实际的应用之一,现在在互联网上有很广泛的使用。此外,不久前,许多科技大公司也相应地推出了为图片或视频自动生成字幕的应用...

3114
来自专栏量子位

传送门!ICML2017(国际机器学习大会)最佳论文(附下载)

允中 整理编译 量子位 报道 | 公众号 QbitAI ? 8月6日,第34届国际机器学习大会(ICML 2017)已在悉尼拉开帷幕。 其中最受关注的论文奖项已...

39114

扫码关注云+社区