我已经为我的lstm超参数做了一些贝叶斯超参数优化的实验。
我使用一种方法,使用高斯过程和TPE算法对误差进行建模。他们工作得很好。
我想知道这些策略在哪里被称为“贝叶斯”。谁能解释一下在超参数优化的背景下“贝叶斯”是什么意思?
谢谢
发布于 2019-07-01 21:42:11
首先是贝叶斯( Gaussian processes fall under the domain of Non-parametric Bayesian learning models ),这意味着它们通常被认为是贝叶斯模型。另一方面,树形结构的Parzen估计器从根本上依赖于贝叶斯规则:它对p(x|y)和p(y)进行建模,我们可以使用它们来通过贝叶斯规则获得p(y|x)。
但是,当人们提到贝叶斯优化时,他们更多地谈论的是搜索方法本身。如果涉及(1)概率先验信念和(2)当获得新证据时更新信念的原则性方法,则该事物是贝叶斯。例如,GPs形成了一个先验函数,以及一种更新后验分布(在获得新证据后的新分布)的方法,这正是我们对贝叶斯最大似然的期望。
通常所做的是从(超)参数空间的贝叶斯先验开始(编码您关于性能应该是什么的先验信念)。我们定义了一个获取函数a(x),它可以帮助我们选择下一步要查看的参数。因为我们有一个概率贝叶斯模型,所以我们有一个不确定性的概念:例如,我们可能知道我们的模型在特定点的预测分布的方差。在距离观测值较远的点,方差将很高,而在靠近观测值的点,方差将较低。换句话说,我们有一个发行版p(y|x)。这种对不确定性的显式解释是贝叶斯方法的一个巨大好处。
获取函数a(x)通常需要平衡两个因素:(1)不确定性,因为在不确定的领域中可能有我们还没有看到的“隐藏的宝石”,以及(2)已证明的性能(即,我们应该留在我们观察到的空间区域附近,我们知道这些区域是好的)。因此,人们可以设计a(x)来最小化分布中的熵(不确定性),或者最大化贝叶斯惊喜,这意味着“选择在观察时导致后验分布最大变化的点”。类似的方法也用于强化学习中的探索(搜索“贝叶斯惊喜”或“好奇心”);任何涉及更新“后验信念”的方法通常被认为是贝叶斯方法。
TLDR:它们是贝叶斯的,因为它们涉及到从先验开始,并迭代地更新后验概率作为信念。
https://stackoverflow.com/questions/56792299
复制相似问题