学界 | 斯坦福论文:马尔可夫链的生成对抗式学习

选自openreview

机器之心编译

参与:机器之心编辑部

论文地址:https://openreview.net/pdf?id=S1L-hCNtl

摘要:我们研究了生成对抗的训练方法来对马尔可夫链(Markov chain)的转移算子(transition operator)进行学习,目的是将其静态分布(stationary distribution)和目标数据分布相匹配。我们提出了一种新型的训练流程,以避免从静态分布中直接采样,但是仍然有能力逐渐达到目标分布。此模型可以从随机噪声开始,是无似然性的,并且能够在单步运行期间生成多个不同的样本。初步试验结果显示,当它临近其静态时,马尔可夫链可以生成高质量样本,即使是对于传统生成对抗网络相关理念中的较小结构亦是如此。

1 引言(略)

2 问题预设

设 S 为随机变量

的序列的状态空间。设 π0 是 X0 的初始概率分布,Tθ(·|x) 是被 θ 参数化的转移核(transition kernel),例如,使用一个神经网络。假定 Tθ 易于采样,而且对任意 θ 都有一个有效的转移核,例如,它对所有的 x ∈ S 都满足:

因此,在 X 的范围内每一个 Tθ都定义一个时间同质的马尔可夫链。我们把

表示成时间 t 下的生成概率分布。如果我们假设对所有的 xt, xt−1 ∈ S,Tθ(xt|xt−1) > 0,那么被 Tθ 所定义的马尔可夫链是不能归复(Irreducible)的,且值为正数的循环神经,因此有一个独特的静态分布

,且对于所有的x ∈ S,πθ满足于:

假设在我们可以得到的样本中有一个未知分布 pd(x),比如,数据分布。我们的目的有二:找到一个 θ 使

  • πθ 接近 Pd(x);
  • 对应的马尔科夫链快速收敛。

3 马尔可夫链的对抗性训练

对于任意θ,即使πθ因为唯一的静态分布而存在,大多数情况下直接计算 x 分布的实际似然度仍然是十分困难的。然而,从

获得样本却十分简单,并且如果 t 足够大,那么它将依概率收敛到πθ。这正好和 GAN 框架是一致的,即训练只需要从模型中抽样就行。

生成对抗网络(GAN)(Goodfellow et al., 2014)是采用两个参与者极小极大博弈来训练深度生成模型的框架。GAN 训练一个生成器网络 G 以转换噪声变量 z ∼ p(z) 为 G(z) 而生成样本。而辨别器网络 D(x) 则区分样本是来自生成器还是来自给定数据分布 pd 的真实样本。该关系可正式表述为以下关系式:

在我们的预设中,我们选择 z ∼ π 0,并令 Gθ(z) 为 t 步后的马尔可夫链状态,如果 t 足够大的话,那么 Gθ(z) 就是πθ良好的近似值。然而,我们遇到了优化方面的问题,因为需要求沿整条马尔可夫链反向传播的梯度,这就导致了梯度更新极其昂贵,即因为梯度估计量的大方差而降低的收敛速度。因此,我们提出了更加高效的近似方法,该方法可由以下目标函数表达:

其中

表示 x 的分布,而从 xd 开始转移核(transition kernel)需要应用 t^次。我们为训练生成器使用两种类型的样本,并优化 θ 这样的样本以骗过辨别器:

1. 样本在 t¯步时,给定起始样本 x0 ∼ π 0。

2. 样本在 tˆ步时,给定一个带小量随机扰动的数据样本 x ∼ pd。

直观讲,第一个条件鼓励马尔可夫链在(长度 t 的)相对短的运行中向 pd 收敛。我们只考虑这一需求,这个方法将对应于一个潜层变量模型的原始采样,就像 Sohl-Dickstein et al. (2015)、Salimans et al. (2015) 和 Bordes et al. (2017) 的情况。然而,相比于这些模型,我们的目标是训练一个迭代步骤,其中样本的质量通过增加模拟步的数量而获得提升。并且在链的 burn-in 期后,可廉价生成多个样本。这种完成需要第二个条件,它迫使收敛变成静态,其中 pd 的每个点转化至数据流形中的另一个点。

在静态分布中,等式 3 中的目标比 等式 2 优化起来更简单。通过利用带有更低方差的评估梯度,平均上,生成器将只运行 (t¯ + tˆ)/2 步,而不是从链中取样直至收敛,如果最初的马尔可夫链的混合需要多步操作,这将极其费时。

4 实验

图 1. 马尔可夫链和 mlp 架构的例子。从左上到右下,每个小图都分别进行了π 1 θ、 π 2 θ、π 5 θ、π 10 θ、π 20 θ、π 50 θ采样。该图通过初始 x0 的采样,100 批的数据样本生成的,迁跃算符重复使用。

我们在 MNIST 数据集上训练了这个模型,其目标是将数据生成分布与πθ相匹配,研究人员倾向于使用简单迁跃算符来匹配复杂分布。研究人员考虑了三种迁跃算符架构 Tθ(·|x)。每个都有一个对称的编码器-解码器结构,高斯噪声被加入了隐代码中,解码器架构分别为:

  1. DCGAN(Radford 等人,2015)所用的生成网络架构,其中包含两个全连接层,随后是两个转置卷积。该模型强大到足以在一个步长中生成清晰图像。
  2. 弱化的 DCGAN,一个全连接层和一个转置卷积层(conv)。
  3. 两个全连接层组成的 MLP,它是最弱的模型(mlp)。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

从CVPR2017 看多样目标检测

1、导读 When you have trouble with object detection, keep calm and use deep learnin...

48850
来自专栏CreateAMind

最好的Dropout讲解

Dropout (Dropout)(Srivastava et al., 2014) 提供了正则化一大类模型的方法, 计算方便但功能强大。第一种近似下,Drop...

24510
来自专栏专知

【干货】计算机视觉实战系列05——用Python做图像处理

【导读】专知成员Hui上一次为大家介绍讲解图像的缩放、图像均匀操作和直方图均衡化,这一次为大家详细讲解主成分分析(PCA)、以及其在图像上的应用。 【干货】计算...

53570
来自专栏张耀琦的专栏

【机器学习入门系列05】分类、概率生成模型

本文通过将神奇宝贝数值化的过程介绍了分类模型、先验概率以及高斯分布的应用;最大似然估计的方法;推导后验概率等

87900
来自专栏人工智能头条

腾讯广点通:基于深度学习的图像语义分析及其应用

49160
来自专栏机器学习之旅

理论:SVM理论解析及python实现

关于常见的分类算法在不同数据集上的分类效果,在《Do we Need Hundreds of Classifiers to Solve Real World C...

13530
来自专栏开心的学习之路

机器学习项目流程及模型评估验证

4.9日到现在一直在做Udacity的P1项目——波士顿房价预测。这个项目让我收获最大的就是理清了机器学习解决问题的整体流程,搭起一个框架,学会了寻找模型的最优...

88870
来自专栏leland的专栏

机器学习算法简介

本文是对机器学习算法的一个概览,以及个人的学习小结。通过阅读本文,可以快速地对机器学习算法有一个比较清晰的了解。

1.5K10
来自专栏人工智能

决策树及ID3算法学习

决策树是一种用树形结构来辅助行为研究、决策分析以及机器学习的方式,是机器学习中的一种基本的分类方法。

1.7K160
来自专栏数据派THU

独家 | 一文为你解析神经网络(附实例、公式)

原文标题:Introduction To Neural Networks 作者:Ben Gorman 翻译:申利彬 校对:和中华 本文长度为4000字,建议阅读...

25650

扫码关注云+社区

领取腾讯云代金券