斯坦福“黑盒学习”研究:使用神经变分推理的无向图模型,可替代“采样”

摘要

机器学习中的许多问题可以自然地用无向图模型的语言表达。在这里,我们提出了无向模型的黑箱学习和推理算法,优化了模型的对数似然的变分近似。我们的方法的核心是我们表示为灵活神经网络的函数q参数化配分函数的上限。它在学习过程中使得配分函数成为可能,加速采样,并通过统一的变分推理框架来训练各种混合有向/无向模型。我们经验性地证明了我们的方法在几个流行的生成建模数据集上的有效性。

介绍

机器学习中的许多问题可以自然地用无向图模型的语言表达。无向图模型用于计算机视觉、语音识别、社会科学、深度学习等其他领域。许多基本的机器学习问题都以无向模型为中心,然而,这类分布的推理和学习会带来很大的计算挑战。

在这里,我们尝试通过针对无向概率图模型P的新变分推理和学习技术来解决这些挑战。我们方法的核心是,无向概率模型P的对数划分函数的上限是由一个近似分布q来表示的,我们表示为一个灵活的神经网络。当q = p时,我们的界是紧密的,对q感兴趣的类在q的参数中是凸的。最有趣的是,它导致了对数似然函数log p的下限,这使得我们能够在一个类似于黑盒变分推理的变分框架中拟合无向模型。

我们的方法相比以前的方法有了许多优点。首先,它能够以黑箱方式训练无向模型,即我们不需要知道模型的结构来计算梯度估计(例如,如在吉布斯采样中那样)。相反,我们的估计只需要评估模型的非标准化概率。在q和p联合优化时,我们的界也提供了一种在学习过程中跟踪配分函数的方法。在推理时,从我初始化的MCMC链(或者它本身可以提供样本)的无向模型中,学习的近似分布q可以用来加速采样。此外,我们的方法自然地集成了最近的有向图模型的变分推理方法。我们预计我们的方法将在自动化概率推理系统中最为有用。

作为我们如何使用这些方法的一个实例,我们研究了不同类别的混合有向/无向模型,并展示了如何在一个统一的黑箱神经变分推理框架中对它们进行训练。那些混合模型已经在早期的深度学习文献中很流行,并从神经科学的原理中获得灵感。它们对相同数量的变量也具有较高的建模能力。相当有趣的是,我们确定了设置使模型也更容易训练。

实验

对近似分布可视化

我们训练了限玻尔兹曼机(RBM)模型,对q的每一步执行两个梯度步骤。上图显示了混合伯努利q的每个组分的平均分布; 人们可以在其中区分各种数字的形状。这证实q确实接近于p。

加速无向模型的采样

模型完成训练后,我们可以用近似q来初始化一个MCMC采样链。 由于q是p的粗略近似,因此产生的链应该混合得更快。为了证实这个想法,我们在随机初始化的吉布斯(Gibbs)抽样链(顶部)以及从q(底部)样本初始化的链中绘制相邻图形样本。后一种方法在几个步骤中看起来的数字似乎是可信的,而前者产生样本是比较模糊的。

相关研究

其实,我们的研究主要启发于对变分自编码器和相关模型的黑盒变分推理,其中,涉及对由神经网络参数化的近似后验概率进行拟合。而我们的研究为无向模型提供了类似的方法。广泛应用的无向模型包括受限深度玻尔兹曼机(Restricted and Deep Boltzmann Machines)以及深度信念网络(Deep Belief Networks)。而与我们的研究最为接近的就是离散的VAE模型。然而,Rolfe试图对p(x|z)进行有效的优化,而RBM的先验p(z)是使用PCD进行优化的。在我们的研究中是使用标准技术来对p(x|z)进行优化的,并且将着重关注p(z)。

更普遍地来讲,我们的研究提出了一种替代性方法,可以替代基于采样的学习方法,而大多数无向模型的变分方法都是以推理为中心的。我们的方法可以扩展到中小型数据集,并且在混合有向/无向生成式模型(hybrid directed-undirected generative models)中最为有用。它的速度可与PCD方法媲美,并能够提供附加的益处,如分区函数追踪(partition function tracking)和加速采样。最重要的是,我们的算法是黑盒式的,并且在不需要知道模型结构的情况下就可以推导出梯度或进行分区函数评估。我们预期我们的方法将在诸如Edward这样的自动推理系统中最为有用。

另外,我们方法的可扩展性局限性主要在于,当q与P不能进行很好的拟合时,对梯度和分区函数进行蒙特卡罗评估中的高方差。在实际中,我们发现诸如拟似然(pseudo-likelihood)这样的简单度量法在诊断这个问题上是非常有效的。当用RBM先验对深度生成模型进行训练时,我们注意到弱q的引入模型崩溃了(但是训练仍然收敛)。然后我们通过增加q的复杂性并使用更多的样本解决了这些问题。最后,我们还发现q梯度的得分函数评估器不能很好地向较高的维度扩展。而更好的梯度评估器可能会进一步改进我们的方法。

结论

综上所述,本文提出了新的无向模型的变分学习和推理算法,从重要抽样和χ2散度最小化的角度出发,优化了配分函数的上限。我们的方法通过黑匣子的方式训练无向模型,并将在自动推理系统中产生作用。我们的框架在速度方面与采样方法相比具有竞争性,并且提供了额外的优点,如配分函数跟踪和加速采样。我们的方法也可以用来训练使用统一变分框架的混合有向/无向模型。最有趣的是,它使具有离散潜变量的生成模型更具表现力和更容易训练。

论文下载:https://arxiv.org/pdf/1711.02679.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

计算机视觉这一年:这是最全的一份CV技术报告

33760
来自专栏AI2ML人工智能to机器学习

最大似然估计的2种论证

前面(一步一步走向锥规划 - 最小二乘法)对最小二乘法OLS进行了描述,并且使用最大似然估计Maximum Likelihood Estimation, MLE...

12220
来自专栏机器之心

AAAI 2018 | 阿里巴巴提出极限低比特神经网络,用于深度模型压缩和加速

418110
来自专栏AI科技大本营的专栏

神经网络浅讲:从神经元到深度学习

作者 | 计算机的潜意识 整理 | AI科技大本营(rgznai100) 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神...

41170
来自专栏数据科学与人工智能

【陆勤学习】解读机器学习基础概念:VC维的来龙去脉

目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hyp...

68860
来自专栏达观数据

课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例

新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的...

62260
来自专栏AI科技大本营的专栏

「数据科学家」必备的10种机器学习算法

编译 | 嗯~是阿童木呀、KABUDA、EVA 可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,...

29950
来自专栏机器之心

蒙特利尔大学开放MILA 2017夏季深度学习与强化学习课程视频(附完整PPT)

机器之心整理 参与:黄小天、蒋思源 2016 年,Aaron Courville 和 Yoshua Bengio 组织的 MILA 深度学习夏季课程获得了极大...

378120
来自专栏大数据挖掘DT机器学习

AdaBoost--从原理到实现

一.引入 对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而...

37960
来自专栏PPV课数据科学社区

【干货长文】神经网络浅讲:从神经元到深度学习

  神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向–深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解...

31580

扫码关注云+社区

领取腾讯云代金券