学界 | Bengio最新论文提出GibbsNet:深度图模型中的迭代性对抗推断

选自arXiv

作者:Alex Lamb等

机器之心编译

参与:蒋思源、路雪

Yoshua Bengio 等研究者最近提出了 GibbsNet,该方法可以学习数据和隐编码之间的联合分布,该方法使用对抗学习迭代步骤来逐步提炼联合分布 p(x, z),以更好地在每一步上匹配数据分布。该论文已被 NIPS 2017 大会收录。

生成模型是学习复杂数据隐藏表征的强大工具。早期的无向图模型展现出强大的潜力,如深度玻尔兹曼机或 DBM(Salakhutdinov and Hinton, 2009),但它们实际上并不能很好地适应复杂的高维特征空间(远超 MNIST),这可能是因为模型优化与混合方面的困难(Bengio et al.,2012)。但近来 Helmholtz 机(Bornschein et al., 2015)和变分自编码器(Kingma and Welling, 2013)的研究工作借鉴了深度学习工具,并能实现非常好的效果,这两种方法现在已经在很多领域上得到了采用(Larsen et al., 2015)。

图 1:上图展示了 GibbsNet 的训练过程。unclamped 链(虚线部分)从各向同性高斯分布 N(0, I) 开始迭代 N 个步骤。最后一个迭代步(N)以实线粉框表示,然后使用联合判别器 D 将其与 clamped 链(实线蓝色框)中的单步数据进行比较。

在这篇论文中,Bengio 等研究者表明以上那些非常复杂的有向图模型依赖于近似推断进行训练,但目前有证据表明近似后验在实践中限制了生成器的能力。因此若我们从推断(编码器)和生成过程(解码器)开始,并直接从这些过程推导出先验知识可能更简单。这种作者称之为 GibbsNet 的方法使用这两个过程来定义马尔科夫链相似到 Gibbs 采样的转换运算,并在采样观察值与采样隐变量之间进行交替。

该论文所提出的方法主要有以下重要的贡献:

  • 本论文为深度图模型中的学习和推断等新方法提供了理论基础。该算法得出的模型和无向图模型非常相似,但避免了对基于最大似然估计方法进行训练的需求,也缺少了一个明确定义的能量函数,反而该论文通过使用类似 GAN 判别器的方法进行训练。
  • 本论文还提出了一个在对抗框架中执行推断的稳定方法,这意味着有效推断是在编码器和解码器网络的各种架构下执行的。这种稳定性来源于编码器 q(z | x) 同时出现在 clamped 和 unclamped 链中,因此我们可以从 clamped 链中的判别器和 unclamped 中的梯度获得训练信号。
  • 本论文还展示了使用简单先验 p(z) 在模型隐藏空间中的质量提升,这体现在提升的条件生成中。隐藏空间的表现力也体现在运行成块 Gibbs 采样时会产生更平滑的混合,体现在推断隐藏空间中的类别会有更好的分离。
  • 本论文的模型具有无向图模型的灵活性,包括在非特性训练的单个模型中所表现出来的标注预测能力、条件类别生成能力和联合图像-标注生成能力等。本论文所提出的 GibbsNet 是第一个将这种灵活性与在自然图像上生成高质量样本能力相结合的模型。

论文地址:https://arxiv.org/abs/1712.04120

摘要:将联合分布构建为 p(x, z) = p(z)p(x | z) 的有向隐变量模型的优势为快速、精确的采样。但是,这类模型的缺陷是需要指定 p(z),通常指定为一个简单的固定先验来限制该模型的表达能力。无向隐变量模型不需要将 p(z) 指定为先验值,利用这类模型进行采样通常需要迭代步骤,如需要多步才能从联合分布 p(x, z) 中采样的成块吉布斯采样(blocked Gibbs-sampling)。我们提出一种新方法来学习数据和隐编码之间的联合分布,该方法使用对抗学习迭代步骤来逐步提炼联合分布 p(x, z),以更好地在每一步上匹配数据分布。GibbsNet 在理论和实践中都是最好的模型。它具备有向隐变量模型的速度和简洁性,保证仅使用几次采样迭代实现从 p(x, z) 中采样的过程(假设对抗博弈达到虚拟训练标准全局最小值)。同时还具备无向隐变量模型的表达能力和灵活性,无需指定 p(z) 即可使用单个模型执行属性预测、类别-条件生成和联合图像属性建模任务,且该模型未经这些任务的训练。实验证明,GibbsNet 能够学习更复杂的 p(z),从而实现几十步实现图像修补和 p(x, z) 的迭代提炼,无需数千步即可稳定生成,尽管训练过程只需要几步。

2. 提出方法:GibbsNet

GibbsNet 旨在通过匹配模型期望的联合分布和数据驱动的联合分布直接定义和学习转换算子(transition operator),然后使用转换算子训练图模型。这与无向图模型类似,也受到其启发,期望跃迁算子(对应成块吉布斯采样)沿着已定义能量流形移动,这样我们就可以在公式中建立该连接。

2.2 架构

GibbsNet 通常包括三个网络:推断网络 q(z|x)、生成网络 p(x|z) 和联合判别器。通常,我们的这些网络架构遵循 Dumoulin et al.(2017)提出的架构,希望我们使用的 boundary-seeking GAN(BGAN, Hjelm et al., 2017)能够显著优化对立分布的匹配(该案例中指模型期望的联合分布和数据驱动的联合分布),这允许我们使用离散变量,即用标签或离散属性学习图,这种方法在我们的实验中表现良好。

表 1:不同模型的 Inception Score。图像修复结果通过修复图像左半边同时运行四步获取。采样指无条件采样。

图 4:学习转换算子的方法的 CIFAR 样本。1000 步后的非平衡热力学(Sohl-Dickstein et al., 2015)(左),20 步后的 GibbsNet(右)。

图 5:SVHN 的图像修复结果,其中右半边是给定的图像,左半边是修复的结果。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

荐号 | 如何优雅地读懂支持向量机SVM算法

3296
来自专栏目标检测和深度学习

「数据科学家」必备的10种机器学习算法

可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,其中,X =某种算法;而其他一些人则是“能够在适...

2815
来自专栏人工智能头条

用AI给裸女自动“穿”上比基尼,妈妈再也不担心我“辣眼睛”了

互联网的内容繁杂,一不小心就会看到一些“辣眼睛”的内容,比如裸女,这也是为什么我们需要审核人员的存在。当然,受益于 AI 技术的发展,现在很多审核工作已经自动化...

861
来自专栏林欣哲

自然语言处理--特征提取

自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。 通常来说,提取单词的特征是最常用的提取方法。当然,特征提取也是根据你看问题的角度的来决...

4569
来自专栏用户2442861的专栏

AdaBoost--从原理到实现

对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(...

791
来自专栏华章科技

94页论文综述卷积神经网络:从基础技术到研究前景

导读:卷积神经网络(CNN)在计算机视觉领域已经取得了前所未有的巨大成功,但我们目前对其效果显著的原因还没有全面的理解。近日,约克大学电气工程与计算机科学系的 ...

792
来自专栏大数据文摘

吴恩达机器学习中文版笔记:异常检测(Anomaly Detection)

3247
来自专栏新智元

【资源】深度学习 Top100:近 5 年被引用次数最高论文(下载)

【新智元导读】这里是近5年100篇被引用次数最多的深度学习论文,覆盖了优化/训练方法、无监督/生成模型、卷积网络模型和图像分割/目标检测等十大子领域。重要的论文...

3596
来自专栏CVer

[计算机视觉论文速递] 2018-05-08

[1]《DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation...

1211
来自专栏专知

【干货】深度学习中的数学理解— 教你深度学习背后的故事

【导读】如今,深度学习在各项任务中所向披靡,比如图像识别,语音处理和自然语言处理。但是,深度学习的理论探讨却比应用滞后好几个数量级,一方面是做应用马上能见效,然...

3067

扫码关注云+社区

领取腾讯云代金券