上下文:在高斯过程(GP)回归中,我们可以使用两种方法:
(I)通过最大似然(最大化数据似然)对核参数进行拟合,并使用这些参数定义的GP进行预测。
(2)贝叶斯方法:在核参数上引入参数先验分布。这种先验分布的参数称为超参数。获取内核参数的后验分布的数据的条件,而现在,
(IIa)通过最大化后验核参数似然(MAP参数)来拟合核参数,并使用映射参数定义的GP进行预测,或
(IIb) (完全贝叶斯方法):使用混合模型进行预测,该模型根据核参数的后验分布将所有允许核参数定义的GPs集成在一起。
(IIb)是在包中引用的参考RW2006中提倡的主要方法。
重点是超参数只存在于贝叶斯方法中,是核参数先验分布的参数。
因此,我对在文档中使用“超参数”一词感到困惑,例如这里,其中指出“内核由超参数向量参数化”。
这必须解释为一种间接的参数化,通过对数据进行条件调整,因为超参数并不直接决定内核参数。然后给出了指数核及其长度尺度参数的算例.这绝对不是一个超参数,因为这个术语通常被使用。
似乎没有区分内核参数和超参数。这是令人困惑的,现在还不清楚这个包是否使用了贝叶斯方法。例如,我们在哪里指定内核参数的先验分布的参数族?
问题:-学习使用方法(I)还是(II)?
这是我自己的试探性回答:混淆来自这样一个事实,即高斯过程通常被称为“函数的先验”,表示某种Bayesianism。更糟糕的是,这个过程是无限维的,所以对有限数据维度的限制是某种“边缘化”。这也是令人困惑的,因为在贝叶斯方法中,只有在数据和参数的联合分布中才会出现边缘化,因此通常会忽略其中一个。
然而,这里正确的观点是:高斯过程是模型,核参数是模型参数,在sci-kit中,由于核参数没有先验分布,所以不存在超参数;给定模型参数,所谓的LML (log边际似然)是普通的数据似然,参数拟合是一般的最大数据似然。简而言之,方法是(一)而不是(二)。
发布于 2022-06-24 02:14:38
如果您阅读关于GP回归的学习文档,您会清楚地看到内核(超级)参数是优化的。例如,查看参数n_restarts_optimizer
的描述:“用于查找内核参数的优化器的重新启动次数,这些参数最大限度地提高了日志边际可能性。”在你的问题中,这就是方法(i)。
不过,我还要注意两件事:
GaussianProcessRegressor
类“公开了一个方法log_marginal_likelihood(theta),它可以用于外部选择超参数的其他方法,例如通过马尔可夫链蒙特卡罗。因此,从技术上讲,这是可能的“完全贝叶斯”(您的方法(ii)),但您必须提供推理方法。https://stackoverflow.com/questions/72729605
复制相似问题