在图像生成领域里，GAN这一大家族是如何生根发芽的

机器之心

发布于 2019-11-04 16:53:04

6170

发布于 2019-11-04 16:53:04

文章被收录于专栏：机器之心

作者：思源

生成对抗网络这一 ML 新成员目前已经枝繁叶茂了，截止今年 5 月份，目前 GAN 至少有 300+的论文与变体。而本文尝试借助机器之心 SOTA 项目梳理生成对抗网络的架构与损失函数发展路径，看看 GAN 这一大家族都有什么样的重要历程。

在前一篇文章中，我们展示了如何借助 SOTA 项目探索机器翻译最前沿的进展。我们可以发现，拥有最顶尖效果的模型，通常都有非常美妙的想法，这对于理解整个任务或领域非常重要。但是如果从另一个角度，探讨这些顶尖模型的关系与演化，我们能获得另一种全局体验。

为了获得这种全局概览，我们探索了 SOTA 项目中图像生成领域的顶级模型。根据机器之心的 SOTA 模型统计，在图像生成领域 58 个顶尖模型中，有 32 个模型在命名中带了「GAN」。这还是包含了生成对抗网络、变分自编码器和流模型三大生成模式的结果。

由此可见，GAN 最近两年构建的变体非常多，我们难以理清它的发展主线。为此，通过 SOTA 项目理解 GAN 的发展全景，也不失为一个好方法。

图像生成 SOTA 排名：https://www.jiqizhixin.com/sota/tech-task/3070d792-9832-48aa-bb1c-3b899fc3c100

因为图像生成领域的 SOTA 排名涉及非常多的数据集与度量方法，我们并不能直观展示不同 GAN 的发展路线。但是通过统计最主流的一些解决方案，我们还是能从模型架构与损失函数两方面介绍 GAN 的发展。

图注：模型由浅到深、机制由简单到复杂、图片质量由低到高的发展过程，其中 SinGAN 获得了 ICCV 2019 最佳论文。图片改编自 arXiv:1906.01529。

图注：不同生成对抗网络所采用的损失函数，它们针对 GAN 的不同缺点提出了自己的解决方案。

生成对抗这个思想可以很早

我们都知道生成对抗网络是 Ian Goodfellow 在 2014 年提出来的，它在图像生成上得到了令人惊艳的效果。本身生成对抗的思想非常容易理解，可以总结为「茅与盾」这几个字。稍微具体一点的话，我们可以看看 Goodfellow 在原论文中给出的一个案例：

图注：生成对抗网络的简要学习过程，选自 arXiv: 1406.2661。

GAN 主要分为生成器与判别器，如上图所示生成器会将初始的随机分布 z 映射到 x，并得到绿色的随机分布。而判别器会判断黑点的真实分布与绿线分布是不是一致，只要判别器能分辨出来，那就它就能指导生成器继续更新。如蓝色虚线所示，较高的位置表示判别器认为样本来自真实分布，较低位置则来自生成分布。直到蓝色虚线一直处于中间位置，那么它分辨不出两个分布的差别，上图从 a 到 d 展示的就是 GAN 的学习过程。

虽然这种生成对抗的思路是通过 GAN 来发扬光大的，但是之前其实就有比较类似的思想。Olli Niemitalo 在 2010 年就在博客写到：「与生成器同时训练一个分类器网络，以随机或交替顺序向该网络输入生成数据和原始数据。然后，分类器根据周围图像的语境猜测该输入是原始数据 (1) 或生成数据 (0)。同时，生成器网络尝试从分类器中获得高分 (1)。」

此外，Jurgen Schmidhuber 也表示，GAN 与他 1992 年提出的 Predictability Minimization（PM）非常相似，GAN 和 PM 的主要区别只在于方向相反。在 Jurgen 今年的一篇概述论文中（arXiv: 1906.04493），他表示 PM 模型与 GAN 都是建模给定数据的无监督技术，它们都利用基于梯度的对抗网络来实现极小极大博弈。

图注：PM 模型与 GAN 的工作流，其包括了各种变体。其中 PM 模型通过极小极大策略训练一个编码器，从而得到高质量的中间表征，该表征是可以生成为对应样本。而 GAN 看起来正好相反，它根据随机的中间表征，学习一个能生成真实样本的编码器。选自 arXiv: 1906.04493。

如上所示，PM 模型使用基于梯度的极小极大策略学习数据的编码器，从而使中间表征与数据的分布保持一致。而 GAN 却使用基于梯度的极小极大策略直接学习给定中间表征的解码器。因此，PM 模型编码器的输入类似于 GAN 解码器的输出，PM 模型编码器的输出类似于 GAN 解码器的输入。

此外，GAN 尝试根据其它给定类型的分布逼近真实数据分布，通常可以给定高斯或二项分布等。而 PM 模型尝试通过多变量阶乘（factorial）二项分布毕竟真实分布。

总的而言，尽管 GAN 为大家所熟知，但之前也有沿着极小极大博弈做生成模型的思路。1992 年的 PM 模型尽管不是那么为人所知，但它的思想还是非常先进的。

GAN 的损失函数演进

除了核心思想外，另一个重要的问题是我们该如何拉近真实图像分布与生成分布之间的距离。如同上文黑色点线和绿色实线一样，GAN 的学习本质就是令生成分布逼近未知的真实分布。要做到这一点，损失函数就必不可少了，GAN 的损失函数会度量两个分布之间的距离，并尽可能拉近它们。

在 14 年 Goodfellow 等研究者提出来的 GAN 中，它使用 KL 散度度量这种距离。机器之心之前曾详细推导过这种基于 KL 散度的学习过程，感兴趣的读者可以查阅该文章。但是原版 GAN 的训练并不稳定，最开始的对抗阶段可能一直生成随机噪声，最后收敛的结果也很可能只生成少量类别的大量重复图像。

为了解决这一系列问题，生成对抗网络后续也就有了一系列的损失函数创新。上文按时间顺序展示了不同的损失函数，其中有一些耳熟能详的损失函数，例如 Wasserstein 距离、最小二乘距离、几何距离或相对距离等等。

总体而言，不同的损失函数主要从梯度消失问题、图像质量和样本多样性三个方面提升 GAN 的效果。不同的度量方法也会有其独特的角度，例如 WGAN-GP 就特别关注梯度消失问题与图像质量，Spectral normalization GAN 对于处理梯度消失与样本多样性是最高效的。

图注：相比原始 GAN 采用的 KL 散度，不同损失函数能获得的性能增益，选自 arXiv: 1906.01529。

Wasserstein 距离

W 距离又称之为推土机距离，直观理解的话，真实图像分布是一堆土，生成分布也是一堆土，而 W 距离就是将生成分布的一堆土沿着某种路径移动到真实分布位置所做的功。当然这种路径对 W 距离是最优的，所做的功也是最小的。在 WGAN 论文中，研究者将该距离描述为：

其中 Π(P_r, P_g) 表示所有联合分布的集合，而 γ(x, y) 的边缘分布分别表示 p_r 与 p_g，它们分别代表真实图像分布与生成分布。相比原版 GAN 采用的 KL 散度与 JS 散度，推土机距离即使在 p_r 与 p_g 之间完全没有重复的情况下，也能反映真实距离。而 JS 散度只会给出固定值 log2，因此也就没有梯度来拉近分布。

图注：两个分布 P_r 与 P_g 之间的 W 距离与 JS 距离，在θ小于或大于 0 时，两个分布没有交叉，JS 散度只能给出定值 log2，而 W 距离能反映两个分布的真实距离。选自 arXiv: 1701.07875。

相对距离

另一种非常有意思的距离是相对距离，在 2018 年研究者提出这种距离后，Ian Goodfellow 在小型数据集上尝试了这种 Relativistic GAN，他表示这种相对距离有很好的属性。之前 GAN 主要希望增加伪造图像看起来很真实的概率，而 Relativistic GAN 同时希望降低真实数据看起来为真的概率。

下面展示了 Relativistic GAN 的损失函数，其中 f_1、f_2、g_1、g_2 都是标量到标量的函数。

看起来这个损失很复杂，但实际上并不难理解，其最为重要的地方在于 C(x_r) - C(x_f)，正是这种减法带来了相对性。而通常 GAN 度量的只是 C(x_r) 或 C(x_f)，它们是绝对的。

正常情况下，GAN 只要求判别器最大化真实样本的概率，即将 D(x) 推向 1，而 RGAN 会要求度量给定一张真实图像，它在多大程度上比随机生成的样本更真实，即将 D(x) 推向 0.5。

图注：右图在训练生成器中，判别器将假数据识别为真的概率推向 1。而理想情况下，真识别为假和假识别为真的概率应该推向中间。选自 arXiv: 1807.00734。

GAN 的图像生成演进

除了拉近分布距离这一制胜法宝，模型的能力也非常重要。模型的能力越强，就表示它能构建更复杂的生成分布，能更好地拟合真实分布。因此模型越深越复杂，它生成的图像质量就越高。在 14 年原版 GAN 中，Goodfellow 采用最简单的浅层全连接网络作为判别器与生成器的架构，它可以在 MNIST 等低分辨率的数据集上获得很好的效果。

既然全连接可行，那么很自然的想法是利用深度卷积网络加强它的能力，后续 LAPGAN 利用卷积网络由低像素向高像素层级地生成；DCGAN 利用转置卷积的空间上采样能力生成更高分辨率的图像。如下图所示为 GAN 的代表性架构演进：

后面根据不同的任务，生成对抗网络架构也有更多的变化。在 17 年提出来的 BEGAN 中，它为判别器加上了一个自编码器。与一般的 GAN 相比，BEGAN 度量生成分布与自编码器损失函数的距离，而不是直接度量生成分布与真实图像分布之间的距离。通过这种修改，模型能帮助生成器生成自编码器容易重建的数据，因此早期训练更加高效。

此外，Progressive GAN 或 Self-attention GAN 等模型都有其独特的地方，PGGAN 一点点增加分辨率，这类似于通过简单小任务走向最终的生成目标；SAGAN 用自注意力机制构建生成器与判别器，能学到生成图像的全局依赖性关系。所有这些创新，都为更真实的图像生成打下了基础。

BigGAN 相信读者们已经非常熟悉了，它在 SAGAN 的基础上证明，通过增加批量大小和模型复杂度，我们能极大地提升生成的图片质量。从 BigGAN 提出以来，我们看到的生成图片真的能欺骗人类的判断，StyleGAN 已经创建了一匹极其真实的「假人类」。但 StyleGAN 在论文中表明，它并没有构建新方法以稳定 GAN 的训练，也没有引入新的架构，它只是引入了一种生成效果非常好的 GAN。

SinGAN

最后，谈到生成对抗网络架构，那就要介绍一下这几天公布的 ICCV 2019 最佳论文，它提出了一种新的 Unconditional GAN。该模型能捕捉图像块（patch）的内部分布，从而生成高质量、多样化的样本，并承载与训练图像相同的视觉内容。

我们先看一些生成样本，模型在经过左侧单张图片的训练后，它就能生成真实的图片，这些生成样本都能描述真实图像的全局结构与精细纹理。