文章/答案/技术大牛

发布

第十一讲：贝叶斯学习与EM算法（中）

文章来源：企鹅号 - AmoyAI

整理人：刘秉钧，信息科学与技术学院智能系

贝叶斯学习

1.1估计分布的参数:离散变量（多值）

1.2估计分布的参数:离散变量（二值）

1.30-1分布的MLE/MAP/贝叶斯估计

1.4估计分布的参数:单变量高斯,方差已知

1.5估计分布的参数：单变量高斯,方差未知

1.6估计模型的参数: 回归

1.7 线性回归的预测分布

上一讲讲到了贝叶斯学习法。这种学习方法与MLE和MAP最大的区别在于充分考虑先验信息，并考虑所有可能的参数来预测后续值的出现概率。

为了更好的理解Bayes学习法，我们通过举例，对其进行说明。

1.1 估计分布的参数:离散变量（多值）——Dirichlet分布

在举例说明Bayes学习法的优越性之前，我们对Dirichlet分布经行一个简单的了解：

Dirichlet分布公式如下：

其中：

B(α)为Bate函数，其定义为：

Gamma函数定义如下：

若参数 thet 满足 Dirichlet 分布，考虑所有的参数 thet 的分布情况，将其带入公式（详情见上一讲，可以看作将所有的 thet，根据其条件概率密度函数，给予其相应权重，得到的全局期望值）：

则有：

公式推导过程如下：

其中Gamma 函数有如下性质：

现在让我们回到Bayes学习方法。根据概率图模型：

得到：

现在我们将已知的满足 Dirichlet 分布的 thet 信息加入到上式中，得到后验概率公式：

其中thet=q为概率，即后验概率正比于（MLE *先验概率），将后验概率公式代入概率图模型公式有：

其中Ni为xi出现的次数（详情见MLE部分）

根据Dirichlet分布的性质，有：

通过上式可以很明显的看出，随着已知信息（先验概率）的不断跟新，其对后验概率造成的直接影响。

1.2估计分布的参数:离散变量（二值）

当参数 thet 服从Bate分布（又称B分布）时：

其样本似然为（在 thet 已知的情况下，数据集的分布情况）：

其中

对于 Bate 分布函数有如下性质：

其函数图像为：

PDF：概率密度函数（probability density function）

同样的，先计算其后验概率：

将结果带入之前的概率图模型得到

1.3 0-1分布的MLE/MAP/贝叶斯估计三者比较

通过比较我们可以看出在 MLE 中，对于概率的计算偏向于频率学派的观点，而 MAP 和 Bayes 中，充分吸收了 Bayes 学派的观点，考虑了先验信息。当已知信息有限时，MAP和 Bayes 的方法更加科学和有效。

其中bayes的结果还可以写成：

通过上式可以更好的说明，当n（试验次数）充分大时，Bayes的结果与MLE相等。当n有限时，则充分考虑先验信息。

1.4估计分布的参数:单变量高斯,方差已知：

根据后验概率公式：

考虑概率密度函数的等比例性质：

其中等式左边为概率密度函数，证明如下：

即后验概率函数又可写成：

且有：

从上式可知，先验信息（高斯分布的均值）会随着试验次数n的增大，对后验信息的影响逐渐减小。

直观理解：

随着试验次数的增多，预测结果的方差会减小，即预测结果更加准确。

1.5 估计分布的参数：单变量高斯,方差未知

已知：

且其中lambda满足Gamma函数分布

似然函数为：

计算后验概率：

显然后验概率满足Gamma函数。其参数（a,b）与试验次数相关。

1.6估计模型的参数: 回归

Bayes学习方法同样可以用在回归模型中，设：

首先回顾一下之前最大似然估计的思路（详情见之前讲义）

对于其目标函数有：

对参数的估计可转换为最小二乘法：

结果为：

利用bayes的逻辑，将充分考虑先验信息（结构风险最小化）：

剩下的公式推导则很容易：

附加对于矩阵的可逆性证明：

1.7 线性回归的预测分布

考虑参数的所有取值情况有：

同样先考虑参数的所有取值情况，由于参数符合高斯分布，且概率之和等于一，有（推导较为繁琐，可直接看结论）：

将两个高斯分布展开：

其中：

综上：

继续对上式经行展开推导，有：

其中：

所以最后得到结果为：

继续对结果经行变形：

根据S-M公式（舍曼和莫里森于1949年提出）有：

带入L，有：

尽管本讲公式推导较为繁琐，但各种学习方法都可以和贝叶斯学习方法有效的结合。都是假设已知信息有效的情况下，实验数据偏少，充分利用先验信息，先给定一个初步预测，再通过实验的经行（已知信息的增加）不断对先验信息经行校正，使之不断的向精确偏移。在之前的推到中，我们可以发现随着实验次数的不断增大，贝叶斯学习的结果将无限趋近于MLE的结果。所以事实上当实验数据量足够大时，先验信息的取值误差对结果的影响很小。即当数据量有保障时，先验信息的取值不用过于谨慎。

注：更多内容详见课件，回复「课件」二字即可领取！

历史文章回顾

机器学习Machine Learning

发表于: 2018-05-162018-05-16 23:32:51
原文链接：https://kuaibao.qq.com/s/20180516G1YO6U00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

第十一讲：贝叶斯学习与EM算法（中）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐