贝叶斯学习(Baysian Learning)是基于贝叶斯定理的一个推断方法。其考虑的场景为:我们观测到一个数据集合\mathcal{D} ,其服从条件分布 p(\mathcal{D} | \boldsymbol{w}) (我们称 p(\mathcal{D} | \boldsymbol{w}) 为 模型分布),其中模型参数 \boldsymbol{w} 是未知的(当看作是 \boldsymbol{w} 的函数时,p(\mathcal{D}|\boldsymbol{w}) 也被称为 模型似然)。尽管 \boldsymbol{w} 是未知的,但先验分布 p(\boldsymbol{w}) 往往是已知的,而我们要求解的便是 \boldsymbol{w}。
贝叶斯学习是基于联合分布 p(\mathcal{D}, \boldsymbol{w}) 的基本分解公式,如下所示:
其中,边际分布 p(\mathcal{D}) = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D}, \boldsymbol{w}) \mathrm{d}\boldsymbol{w} = \int_{\mathcal{\boldsymbol{W}}} p(\mathcal{D} | \boldsymbol{w}) p(\boldsymbol{w}) \mathrm{d}\boldsymbol{w},\mathcal{\boldsymbol{W}} 是模型参数 \boldsymbol{w} 的域。而后验分布 p(\boldsymbol{w} | \mathcal{D}) = \frac{p(\mathcal{D}, \boldsymbol{w})}{p(\mathcal{D})} \propto p(\mathcal{D}, \boldsymbol{w}),其与联合分布 p(\mathcal{D}, \boldsymbol{w}) 只相差一个比例系数(这是因为 p(\mathcal{D}) 对于 \boldsymbol{w} 来说是一个常数),换句话说,联合分布是未规范的后验分布。
注意,如果 \mathcal{\boldsymbol{W}} 是离散的,则上述公式的密度积分应该替换成概率求和。
最大似然(ML)方法通过最大化似然概率来估计未知参数 \boldsymbol{w} :
最大后验概率(MAP)方法通过最大化后验概率来估计未知参数 \boldsymbol{w} :
可以看到,当先验概率 p(\boldsymbol{w}) 服从均匀分布时,p(\boldsymbol{w}) \propto 1,此时称先验概率 p(\boldsymbol{w}) 为 uniform prior 或 flat prior。
求解 MAP 可以使用 EM 算法。
使用贝叶斯学习方法,要计算至少以下一个量:
这里有分解有很多版本,每个版本的条件可能有所不同,比如上面给出的版本就要求当给定条件 \boldsymbol{w} 时,\mathcal{D}^{\mathrm{new}} 与 \mathcal{D} 独立。另外两种分解如下:
上述第一种没有额外的条件,第二种则要求 \boldsymbol{w} 和 \mathcal{D} 独立。
上述 4 个量都要计算一个关于 \boldsymbol{w} 的函数在未规范化的后验概率 p(\mathcal{D}, \boldsymbol{w}) 上的期望,而这个期望的求解往往是非常困难的,特别是当 \boldsymbol{w} 的维度很高时。这也是贝叶期学 习方法的一个瓶颈所在。
一个先验 p(\boldsymbol{w}) 被称为似然 p(\mathcal{D} | \boldsymbol{w}) 的共轭,如果后验概率 p(\boldsymbol{w}|\mathcal{D}) 和先验 p(\boldsymbol{w}) 是属于同一个分布族的。
一个分布族被称为指数族,如果它可以写成以下的形式:
其中,\boldsymbol{t} = \boldsymbol{t}(\boldsymbol{x}) 是关于随机变量 \boldsymbol{x} 的函数,被称为 \boldsymbol{x} 的充分统计量;\boldsymbol{\eta} = \boldsymbol{\eta}(\boldsymbol{w}) 是关于参数 \boldsymbol{w} 的函数,被称为 \boldsymbol{w} 的自然参数。
举例来说,一元高斯分布(属于指数族)的充分统计量 \boldsymbol{t} = (x, x^2)^\top ,自然参数 \boldsymbol{\eta} = (\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})^\top 。
在实际场景中,往往使用超参参数化的先验分布。而这些超参 \boldsymbol{\kappa} 可以通过交叉验证等手段进行调整,也可以看作是模型参数直接使用贝叶斯学 习方法进行估计。此时模型参数为 \bar{\boldsymbol{w}} = (\boldsymbol{w}, \boldsymbol{\kappa}, \boldsymbol{z}) 且 p(\bar{\boldsymbol{w}}) = p(\boldsymbol{z} | \boldsymbol{w}) p(\boldsymbol{w} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa}) ,\boldsymbol{z} 为隐变量,则经验贝叶斯学 习方法为\hat{\boldsymbol{\kappa}}^{\mathrm{EBayes}} = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D}, \boldsymbol{\kappa}) = \underset{\boldsymbol{\kappa}}{\arg\max} p(\mathcal{D} | \boldsymbol{\kappa}) p(\boldsymbol{\kappa}) 其中,p(\mathcal{D} | \boldsymbol{\kappa}) = \int p(\mathcal{D}, \boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\kappa}) \mathrm{d}\boldsymbol{w} \mathrm{d}\boldsymbol{z} 。在经验贝叶斯学习(EBayes)中,超参 \boldsymbol{\kappa} 是通过最大化边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 来估计得到的。边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 的负对数F^{\mathrm{Bayes}} = -\log{p(\mathcal{D} | \boldsymbol{\kappa})} 被称为贝叶斯自由能或随机复杂度(或者是 evidence)。因此,最大化边际似然 p(\mathcal{D} | \boldsymbol{\kappa}) 等价于最小化贝叶斯自由能。
文章作者: hotarugali
文章链接: https://hotarugali.github.io/2022/04/16/Technique/MachineLearning/ 贝叶斯学习 /
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。 转载请注明来自 お前はどこまで見えている!