贝叶斯学习

机器学习AI算法工程

发布于 2018-03-12 17:54:22

8330

发布于 2018-03-12 17:54:22

贝叶斯学习

先说一个在著名的MLPP上看到的例子，来自于Josh Tenenbaum 的博士论文，名字叫做数字游戏。

用我自己的话叙述就是：为了决定谁洗碗，小明和老婆决定玩一个游戏。小明老婆首先确定一种数的性质C，比如说质数或者尾数为3；然后给出一系列此类数在1至100中的实例D= {x1,...,xN} ；最后给出任意一个数x请小明来预测x是否在D中。如果小明猜错了就要去洗碗，当然，如果猜对了就下饭馆吃。

举个例子，当D={16, 8, 2, 64}，小明会猜测发起者给出的C是2的n次方或者偶数的形式，因此如果x=32时，小明马上会很确定答案应该是YES。是但如果x是10的话，小明可能会稍微有些犹豫了。不过幸运的是，小明是个码农，贝叶斯学习的算法给小明提供了一个判断的工具。它基本的思想是最终的概率（后验概率）正比于似然概率（likelihood)和先验概率（prior)的乘积

（1）似然概率

在此例中，再假设均匀取样时，很明显似然概率由以下公式给出：

即样本空间越大，取到某一个特定集合的概率越小。

(2)先验概率

先验概率代表着对似然概率的一种补充。他可以由历史资料得出，也可以由经验来得出。在此例中，假如D = {16,8,2,64}，那么小明可以得到两种可能的h。一个是2的n次方，另一个是2的n次方除去32。如果只考虑似然概率的话，后一种情况的概率明显更大，但由生活经验我们可以知道除非老婆非常变态，否则不太可能出第二种那么道德沦丧的集合。因此我们给予“正常”的集合相对大的先验概率，“不正常”的反之，使得最终的结果更加符合我们的经验。

(3)后验概率

基本的贝叶斯公式相信大家都很清楚了。使用的时候由于分母是定值，因此只要判定分子就可以了。即先验概率和似然概率的乘积

下图是具体的展示。

可以看到即使第二种假设的似然概率更大，但是后验概率是第一种更大，这是符合大家的经验的。

（可惜的是，这个故事的结果是后一种假设正确，小明又愉快地去洗碗了）

先验概率的加入可以使我们应对“黑天鹅事件”的发生。

现在我们看看在数学模型下具体的描述。

1. 贝塔-二项分布

首先又是万年不变的丢硬币的例子：小明和老婆抛硬币决定谁洗碗，小明总是担心老婆在硬币上动了手脚，他决定利用以往的数据估算硬币正面朝上的概率。

假设硬币的朝向服从伯努利分布，在一系列的投掷过程中，有N1次正面朝上，N0背面朝上，则能够很轻易得出此次抛投的概率：

当然这是对任意一次的抛投过程来说的，如果我们知道某一次投掷过程的具体的结果，想求出现这次结果的概率，前面就需要乘以一个组合的系数，即

问题的关键在于，先验概率应该如何确定。理论上来说任何一个在[0,1]上支撑的分布函数都能够符合条件，但是小明希望能够使结果尽可能地简化。最理想的情况，就是先验分布和似然分布拥有相同的形式，即：

那么后验分布可以很轻易地得到：只需要把指数相加即可

计算果然很简单，想到这里，小明幸福地留下眼泪。

幸运的是，有一个很常见的分布正好满足这种形式，它就是 Beta 分布。

具体来说，如果我们对先验的分布一无所知的话，令a=b=1即可。如果想附加信息进入的话，则可以通过计算得出具体的参数值。在MLPP中给出的例子是，如果我们认为先验分布θ

具有0.7的方差和0.2的标准差，则令a=2.975,b=1.275。

下图是我在R语言中展示的几个Beta函数的密度函数。

。

一个比较直观的理解方式是，先验分布的加入相当于一个伪计数（pseudo counts）。先验信息的加入相当于预先按照先验分布的设定投掷了一定数量的硬币，最后的结果也就是实际投掷结果和先验分布的综合。

那么问题来了，小明在之前20次的投掷硬币中，一共投出了3次正面。理论上说硬币朝上的概率约为15%。但此时出于对老婆良心的肯定，我们设定先验分布为Beta(4,4)。那么硬币朝上的概率会被提高到20%以上（不过还是很低，小明感到一阵心酸）

那么加入先验分布的意义是什么呢？相信大家都知道“黑天鹅事件“这个俗语。比如说连续投掷5次硬币每次都为正面的概率非常小，但是一旦发生，那么硬币朝上的似然概率就为1，这样似乎会违背我们的常识。但是如果我们加入一个均值为0.5的先验分布，就能够将正面朝上的概率往0.5“拉”一点，这样就能够有效地应对“黑天鹅事件”的发生。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-10-02，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法