前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >贝叶斯学习

贝叶斯学习

作者头像
hotarugali
发布2022-04-25 14:12:42
1.3K0
发布2022-04-25 14:12:42
举报
文章被收录于专栏:hotarugaliの技术分享

1. 简介

贝叶斯学(Baysian Learning)是基于贝叶斯定理的一个推断方法。其考虑的场景为:我们观测到一个数据集合\mathcal{D} ,其服从条件分布 p(\mathcal{D} | \boldsymbol{w}) (我们称 p(\mathcal{D} | \boldsymbol{w}) 模型分布),其中模型参数 \boldsymbol{w} 是未知的(当看作是 \boldsymbol{w} 的函数时,p(\mathcal{D}|\boldsymbol{w}) 也被称为 模型似然)。尽管 \boldsymbol{w} 是未知的,但先验分布 p(\boldsymbol{w}) 往往是已知的,而我们要求解的便是 \boldsymbol{w}

2. 贝叶斯定理

贝叶斯学是基于联合分布 p(\mathcal{D}, \boldsymbol{w}) 的基本分解公式,如下所示:

\underbrace{p(\boldsymbol{w} | \mathcal{D})}_{\text {posterior}} \underbrace{p(\mathcal{D})}_{\text {marginal}} = \underbrace{p(\mathcal{D}, \boldsymbol{w})}_{\text {joint}} = \underbrace{p(\mathcal{D} | \boldsymbol{w})}_{\text {likelihood}} \underbrace{p(\boldsymbol{w})}_{\text {prior}} \tag{1}

其中,边际分布 p(\mathcal{D}) = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w}) \mathrm{d}\boldsymbol{w}\mathcal{\boldsymbol{W}} 是模型参数 \boldsymbol{w} 的域。而后验分布 p(\boldsymbol{w} | \mathcal{D}) = \frac{p(\mathcal{D}, \boldsymbol{w})}{p(\mathcal{D})} \propto p(\mathcal{D}, \boldsymbol{w}),其与联合分布 p(\mathcal{D}, \boldsymbol{w}) 只相差一个比例系数(这是因为 p(\mathcal{D}) 对于 \boldsymbol{w} 来说是一个常数),换句话说,联合分布是未规范的后验分布

注意,如果 \mathcal{\boldsymbol{W}} 是离散的,则上述公式的密度积分应该替换成概率求和。

3. 最大似然

最大似然(ML)方法通过最大化似然概率来估计未知参数 \boldsymbol{w}

\hat{\boldsymbol{w}}^{\mathrm{ML}} = \arg\max{p(\mathcal{D} | \boldsymbol{w})} \tag{2}

4. 最大后验概率

最大后验概率(MAP)方法通过最大化后验概率来估计未知参数 \boldsymbol{w}

\hat{\boldsymbol{w}}^{\mathrm{MAP}} = \arg\max{p(\boldsymbol{w} | \mathcal{D})} = \arg\max{p(\mathcal{D}, \boldsymbol{w})} = \arg\max{p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w})} \tag{3}

可以看到,当先验概率 p(\boldsymbol{w}) 服从均匀分布时,p(\boldsymbol{w}) \propto 1,此时称先验概率 p(\boldsymbol{w})uniform priorflat prior

求解 MAP 可以使用 EM 算法。

5. 贝叶斯学

使用贝叶斯学方法,要计算至少以下一个量:

  • Marginal likelihood(zeroth moment)
p(\mathcal{D}) = \int p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{4}
  • Posterior mean(first moment)
\bar{\boldsymbol{w}} = \mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ \boldsymbol{w} \right] = \frac{1}{p(\mathcal{D})} \int \boldsymbol{w} \cdot p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{5}
  • Posterior covariance(second moment)
\mathbb{E}_{p(\boldsymbol{w}|\mathcal{D})} \left[ (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top \right] = \frac{1}{p(\mathcal{D})} \int (\boldsymbol{w} - \bar{\boldsymbol{w}})(\boldsymbol{w} - \bar{\boldsymbol{w}})^\top p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} \tag{6}
  • Predictive distribution(expectation of model distribution)
p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \tag{7}

这里有分解有很多版本,每个版本的条件可能有所不同,比如上面给出的版本就要求当给定条件 \boldsymbol{w},\mathcal{D}^{\mathrm{new}} \mathcal{D} 独立。另外两种分解如下:

p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \frac{1}{p(\mathcal{D})} \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\mathcal{D}, \boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\ p(\mathcal{D}^{\mathrm{new}} | \mathcal{D}) = \mathbb{E}_{p(\boldsymbol{w} | \mathcal{D})} \left[ p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}) \right] = \int p(\mathcal{D}^{\mathrm{new}} | \boldsymbol{w}, \mathcal{D}) p(\boldsymbol{w}) \mathrm{d} \boldsymbol{w} \\

上述第一种没有额外的条件,第二种则要求 \boldsymbol{w} \mathcal{D} 独立。

上述 4 个量都要计算一个关于 \boldsymbol{w} 的函数在未规范化的后验概率 p(\mathcal{D}, \boldsymbol{w}) 上的期望,而这个期望的求解往往是非常困难的,特别是当 \boldsymbol{w} 的维度很高时。这也是贝叶期学方法的一个瓶颈所在。

5.1 共轭先验

一个先验 p(\boldsymbol{w}) 被称为似然 p(\mathcal{D} | \boldsymbol{w})共轭,如果后验概率 p(\boldsymbol{w}|\mathcal{D}) 和先验 p(\boldsymbol{w}) 是属于同一个分布族的。

  • 当模型分布为各向同性的高斯分布时,各向同性的高斯分布先验(关于均值 \boldsymbol{\mu})、伽玛分布先验(关于方差的倒数 \sigma^{-2})以及各向同性的高斯伽玛分布先验(同时关于均值和方差)都是共轭先验。
  • 当模型分布为一般的高斯分布时,威尔沙特分布先验(关于均值 \boldsymbol{\mu} 或关于协方差矩阵的逆 \boldsymbol{\Sigma}^{-1})以及高斯威尔沙特分布先验都是共轭先验。当模型似然有一个共轭先验时,贝叶斯学关于式 (4) \sim (7) 可以得到解析解。

5.2 指数族

一个分布族被称为指数族,如果它可以写成以下的形式:

p(\boldsymbol{x} | \boldsymbol{w}) = p(\boldsymbol{t} | \boldsymbol{\eta}) = e^{\left( \boldsymbol{\eta}^\top \boldsymbol{t} - A(\boldsymbol{\eta}) + B(\boldsymbol{t}) \right)}

其中,\boldsymbol{t} = \boldsymbol{t}(\boldsymbol{x}) 是关于随机变量 \boldsymbol{x} 的函数,被称为 \boldsymbol{x}充分统计量\boldsymbol{\eta} = \boldsymbol{\eta}(\boldsymbol{w}) 是关于参数 \boldsymbol{w} 的函数,被称为 \boldsymbol{w}自然参数

举例来说,一元高斯分布(属于指数族)的充分统计量 \boldsymbol{t} = (x, x^2)^\top ,自然参数 \boldsymbol{\eta} = (\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})^\top

  • 指数族分布都是乘积封闭的

5.3 经验贝叶斯学

在实际场景中,往往使用超参参数化的先验分布。而这些超参 \boldsymbol{\kappa} 可以通过交叉验证等手段进行调整,也可以看作是模型参数直接使用贝叶斯学方法进行估计。此时模型参数为 \bar{\boldsymbol{w}} = (\boldsymbol{w}, \boldsymbol{\kappa}, \boldsymbol{z}) p(\bar{\boldsymbol{w}}) = p(\boldsymbol{z} | \boldsymbol{w}) p(\boldsymbol{w} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa})\boldsymbol{z} 为隐变量,则经验贝叶斯学方法为\hat{\boldsymbol{\kappa}}^{\mathrm{EBayes}} = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D}, \boldsymbol{\kappa}) = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa}) 其中,p(\mathcal{D} | \boldsymbol{\kappa}) = \int p(\mathcal{D}, \boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\kappa}) \mathrm{d}\boldsymbol{w} \mathrm{d}\boldsymbol{z} 。在经验贝叶斯学(EBayes)中,超参 \boldsymbol{\kappa} 是通过最大化边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 来估计得到的。边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 的负对数F^{\mathrm{Bayes}} = -\log{p(\mathcal{D} | \boldsymbol{\kappa})} 被称为贝叶斯自由能随机复杂度(或者是 evidence)。因此,最大化边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 等价于最小化贝叶斯自由能。

附录

文章作者: hotarugali

文章链接: https://hotarugali.github.io/2022/04/16/Technique/MachineLearning/ 贝叶斯学 /

版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。 转载请注明来自 お前はどこまで見えている

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 简介
  • 2. 贝叶斯定理
  • 3. 最大似然
  • 4. 最大后验概率
  • 5. 贝叶斯学习
    • 5.1 共轭先验
      • 5.2 指数族
        • 5.3 经验贝叶斯学习
        • 附录
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档