【Ian Goodfellow 强推】GAN 进展跟踪 10 大论文(附下载)


编译:小潘、肖琴

【新智元导读】生成对抗网络GAN的提出者Ian Goodfellow在推特上推荐了10篇GAN论文,是跟踪GAN进展,了解最新技术不容错过的。本文带来整理和介绍,希望能给读者带来启发。

1. Progressive Growing of GANs for Improved Quality, Stability, and Variation

Tero Karras, Timo Aila, Samuli Laine & Jaakko Lehtinen (NVIDIA and Aalto University)

来自NVIDIA Research的GAN论文,提出以一种渐进增大(progressive growing)的方式训练GAN,通过使用逐渐增大的 GAN 网络(称为PG-GAN)和精心处理的 CelebA-HQ 数据集,实现了效果令人惊叹的生成图像。作者表示,这种方式不仅稳定了训练,GAN生成的图像也是迄今为止质量最好的。

它的关键想法是渐进地增大生成器和鉴别器:从低分辨率开始,随着训练的进展,添加新的层对越来越精细的细节进行建模。“Progressive Growing” 指的是先训练4x4的网络,然后训练8x8,不断增大,最终达到1024x1024。这既加快了训练速度,又大大稳定了训练速度,并且生成的图像质量非常高,例如1024×1024的CelebA图像。

数据集和代码都已开源。

论文:https://arxiv.org/pdf/1710.10196.pdf

源代码:https://github.com/tkarras/progressive_growing_of_gans

2. Spectral Normalization for Generative Adversarial Networks

Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida (2018)

来自日本研究者的ICLR 2018论文,提出了一种叫做 “谱归一化”(spectral normalization)的新的权重归一化(weight normalization)技术,来稳定判别器的训练。这种新归一化技术计算轻巧,易于并入现有的部署当中。我们在 CIFAR10,STL-10 和 ILSVRC2012 数据集上测试了谱归一化的功效,通过实验证实了相对于那些使用此前提出的训练稳定技术训练的 GAN,谱归一化 GAN(SN-GAN)能够生成质量相同乃至更好的图像。

简单说,论文提出了一种新的权重归一化方法,用于稳定判别器的训练。作者在论文中写道,他们的归一化方法需要调整的超参数只要一个,就是 Lipschitz 常数,而且即使不调整这个超参数,也能获得满意的性能。此外,算法实现简单,额外的计算成本很小。

论文地址:https://openreview.net/pdf?id=B1QRgziT-

3. cGANs with Projection Discriminator

Takeru Miyato, Masanori Koyama (2018)

这篇论文提出了一种新的、基于投影的方法,将有条件的信息(conditional information)纳入GAN的判别器。这种方法与当前的大多数条件GAN(cGAN)的框架不同,它是通过将(嵌入的)条件向量连接到特征向量来使用条件信息。通过这样的修改,研究者在ImageNet的class conditional图像生成质量比当前最优结果显著提高,并且这是只通过一对discriminator和generator实现的。该研究还将应用扩展到超分辨率,并成功地生成了高质量的超分辨率图像。代码、生成的图像和预训练的模型可用。

论文:https://openreview.net/pdf?id=ByS1VpgRZ

代码:https://github.com/pfnet-research/sngan_projection

4. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

T-C Wang, M-Y Liu, J-Y Zhu [NVIDIA Corporation & UC Berkeley] (2017)

来自NVIDIA和UC Berkeley的研究,Pix2pixHD 利用条件 GAN 进行高清图像合成和处理(分辨率 2048x1024),输入语义标注图,系统能够生成逼真的现实世界图像,例如街景、人脸。

研究者提出一种多尺度的生成器和判别器架构,结合新的对抗学习目标函数。实验结果表明,条件 GAN 能够合成高分辨率、照片级逼真的图像,不需要任何手工损失或预训练的网络。

不仅如此,作者还提出了一种方法,让用户能够交互式地编辑物体的外观,大大丰富了生成的数据类型。例如,在下面的视频中,你可以发现用户能够选择更换街景中车辆的颜色和型号,给街景图增加一些树木,或者改变街道类型(例如将水泥路变成十字路)。类似地,利用语义标注图合成人脸时,给定语义标注的人脸图像,你可以选择组合人的五官,调整大小肤色,添加胡子等。

作者在文中指出,他们的方法可以扩展到其他领域,尤其是医疗图像这样缺乏预训练网络的领域。

项目和论文:https://tcwang0509.github.io/pix2pixHD/

5. Are GANs Created Equal? A Large-Scale Study

M Lucic, K Kurach, M Michalski, S Gelly, O Bousquet [Google Brain] (2017)

这是来自谷歌大脑团队的研究,他们对 MM GAN、NS GAN、WGAN、WGAN GP、LS GAN、DRAGAN、BEGAN 等近期出现的优秀 GAN 模型进行了客观的性能比较,发现这些模型并没有像它们声称的那样优于原始 GAN。

研究者称,他们对 state-of-the-art 的一些 GAN 模型进行了公平、全面的比较,证明在有足够高的计算预算的情况下,几乎所有这些 GAN 都可以达到相似的 FID 值。

他们的实验证据(重现这些实验的计算预算大约是 60K P100 GPU 小时)证明为了比较 GAN 的性能,有必要报告其结果分布的一个 summary,而不是只报告最好的结果,因为优化过程存在随机性和模型不稳定性。

Ian Goodfellow 评论此工作:ML 的研究人员,审稿人和有关 ML 的新闻报道需要对结果的统计稳健性和超参数的效果进行更认真的研究。这项研究表明,过去一年多的很多论文只是观察抽样误差,而不是真正的改进。

论文:https://arxiv.org/pdf/1711.10337.pdf

新智元报道:【谷歌大脑团队 GAN 生态权威报告】6 种优化 GAN 模型对比,最优秀的仍是原始版本

6. Improved Training of Wasserstein GANs

Gulrajani, F Ahmed, M Arjovsky, V Dumoulin, A Courville

生成对抗网络(GANs)是一个功能十分强大的模型,但现阶段仍然受到训练不稳定的问题干扰。最近新提出的 Wasserstein 对抗网络(WGAN)在对GANs的训练的稳定性方面取得了进展,但有时仍然只能产生低质量的样本,或者出现无法收敛的问题。这篇文章中提出的方法比标准的WGAN性能优越,在几乎不需要超参数调优的情况下,可以保证对各种结构的GAN进行稳定的训练,其中包括101层的ResNets模型和基于离散数据的语言模型。

文章的主要贡献如下:

  1. 保证对各种各样的GAN结构进行稳定的训练
  2. 提出了一种基于梯度惩罚的生成对抗网络((WGAN-GP),同样可以保证稳定的训练
  3. 对各种GAN模型结构训练的稳定性进行了改善,并展示了权重的剪枝问题对结果的改善情况,同时论文中也展示了对高质量图像的生成以及对一个无离散采样的字符级的语言模型的性能改进。

实验结果对比如表1所示:

表1

论文:https://arxiv.org/pdf/1704.00028.pdf

7. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang et. al.

尽管生成的敌对网络(GANs)在各种任务中已经取得了显著的成功,但它们仍然在生成高质量图像方面面临挑战。本文提出了一种堆叠的生成对抗网络(StackGAN),目标是生成高分辨率的现实图像。

首先,本文提出了一个包含两阶段的生成对抗网络架构stack GAN-v1用于文本-图像合成。根据给定的文字描述,GAN在第一阶段描绘出了物体的原始形状和颜色,产生了低分辨率的图像。在第二阶段,GAN将第一阶段的低分辨率图像和文字描述作为输入,并以逼真的细节生成高分辨率的图像。

其次,提出了一种多阶段的生成对抗性网络架构,即StackGAN-v2,用于有条件和无条件的生成任务。提出的StackGAN-v2由多个树状结构的生成器和判别器组成。树的不同分支可以生成对应于同一场景的多个尺寸的图像。通过对多个分布的联合逼近,StackGAN-v2显示了比StackGAN -v1更稳定的训练结果。大量的实验证明,在生成高清图像时,文章提出的堆叠的生成对抗网络比其他现阶段表现优异的算法更具优势。文章中提出的模型如图1所示:

论文:https://arxiv.org/pdf/1710.10916.pdf

8. Privacy-preserving generative deep neural networks support clinical data sharing

B K. Beaulieu-Jones, Z S Wu, C Williams, C S. Greene [University of Pennsylvania] (2017)

尽管人们普遍认识到,数据共享促进了科学的快速发展,但保护参与者隐私的合理需求阻碍了医学的实践。通过生成患者的模拟数据,作为训练数据来对深度神经网络进行训练。以SPRINT实验为例,实验中展示了通过使用模拟数据对机器学习模型进行训练可以泛化得到原始数据。通过结合不同用户的隐私,提出方法可以强有力地保证模型数据可以对应到每一编制数据集的调查人员。

对于数据集构建完成的研究人员,他们可以用论文中提出的方法,为进行相关研究的科研人员提供自用访问的公共版本数据集。即使在需要考虑隐私的条件下,生成的数据也可以与相关代码一起发布,方便其他研究人员进行算法复现。通过解决数据共享的挑战,深度神经网络可以促进对临床数据集进行严格的可重复调查。

论文:https://www.biorxiv.org/content/early/2017/07/05/159756

9. Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks

L Mescheder, S Nowozin, A Geiger [MPI Tubingen & Microsoft Research Cambridge] (2017)

变分型自动编码器(VAEs)是一种具有表达能力的潜在变量模型,可用于从训练数据中学习复杂的概率分布。然而,结果模型的质量主要依赖于推理模型的表达能力。文中引入了对抗型的变分贝叶斯(AVB),这是一种通过使用任意表达的推断模型来训练可变汽车编码的技术。文中通过引入一个辅助的判别网络来实现这一目标,这个网络允许将最大似然问题重新定义为双方博弈问题,因此在VAEs 和生成对抗网络之间建立了一个规则连接。

结果表明,在非参数的限制条件下,提出方法可以获得生成模型参数的最大似然估计,并且通过观察可以得到隐变量的准确的后验分布。不同于VAEs和GANs相结合的竞争方法,论文中提出的方法有一个明确的理论依据。而且算法中保留了标准变分自动编码器的大多数优点,并更容易实现。算法模型与标准AVE的对比图如图下所示:

在二值化的MNIST数据集上的结果如表2所示,分别对应的是AVB和基于VAEs的各种改善算法。通过对表中结果分析可以发现,提出算法在二值化的MNIST数据集上可以获得最优的对数似然估计。在表的下半段的对数似然估计不是通过AIS获得的,而是通过重要性抽样的方法。

表2

论文:https://arxiv.org/pdf/1701.04722.pdf

10. Gradient descent GAN optimization is locally stable

V Nagarajan, J. Z Kolter [CMU] (2017)

尽管生成对抗网络(GANs)的应用日益突出,但是GANs的优化仍然是一个棘手的问题。这篇文章分析了基于梯度下降形式的GANs的优化,例如在自然环境中,生成器和判别式参数同时使用小梯度的下降。文中证明了,即使是简单的参数化问题,GAN的优化也不与凹凸优化问题对应。在合适的条件下,对于传统的GAN算法的规则,优化过程的平衡点仍然是局部渐进平稳的。

另一方面,论文中也证明了最近提出的Wasserstein GAN在接近平衡点的时具有非收敛的限制周期。受到这一稳定性分析的启发,文中提出了一种新的正则化方法,用于对GAN的梯度下降的更新,既能保证WGAN和传统GAN的局部稳定性,又能在加速收敛和处理模型衰竭方面具有实际的应用前景。

对比结果如下图所示,左边为使用了梯度正则化方法的结果图,右边为传统的DCGAN结构获得的结果图,分别对应的是经过1,4,20次迭代后的结果:

论文:https://arxiv.org/abs/1706.04156

来源:https://weibo.com/ttarticle/p/showid=2309404212119326295632

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-03-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

贝叶斯思想概述:从贝叶斯定理到贝叶斯网络

翻译 | AI科技大本营(ID:rgznai100) 参与 | 刘畅 假设世界上存在一种非常罕见的疾病,你患有这种疾病的几率只有千分之一。你想知道你是否被感染了...

2624
来自专栏CVer

[计算机视觉论文速递] 2018-03-07

通知:这篇推文有18篇论文速递信息,涉及目标检测、图像分割和GAN等方向。 [1]《A new stereo formulation not using pix...

4209
来自专栏磐创AI技术团队的专栏

计算智能(CI)之粒子群优化算法(PSO)(一)

计算智能(ComputationalIntelligence ,CI)是以生物进化的观点认识和模拟智能。按照这一观点,智能是在生物的遗传、变异、生长以及外部环境...

4276
来自专栏AI科技大本营的专栏

“照骗”难逃Adobe的火眼金睛——用机器学习让P图无所遁形

【导读】下图是 2008 年伊朗政府发布的一张图片,然而强大的网友们却凭借着肉眼,看出来图中黄色圈出的部分和红色圈出的部分是一模一样的,不得不说网友们真的是火眼...

582
来自专栏机器之心

学界 | 最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

1245
来自专栏灯塔大数据

塔荐 | 关于GAN原理与应用的入门介绍

导读:生成对抗网络(GAN)是一类在无监督学习中使用的神经网络,其有助于解决按文本生成图像、提高图片分辨率、药物匹配、检索特定模式的图片等任务。Statsbot...

3514
来自专栏CreateAMind

自动驾驶核心技术之三:环境感知

自动驾驶四大核心技术,分别是环境感知、精确定位、路径规划、线控执行。环境感知是其中被研究最多的部分,不过基于视觉的环境感知是无法满足无人驾驶要求的。

1212
来自专栏机器之心

六种改进均未超越原版:谷歌新研究对GAN现状提出质疑

选自arXiv 机器之心编译 参与:李泽南、路雪、蒋思源 令人沮丧的结果:尽管目前很多GAN的衍生算法都声称自己要比原版GAN更强大,谷歌大脑的新研究却对这种主...

3287
来自专栏数据派THU

独家 | 一文读懂推荐系统知识体系-上(概念、结构、算法)

? 本文主要阐述: 推荐系统的3个W 推荐系统的结构 推荐引擎算法 浏览后四章的内容请见下篇。 1. 推荐系统的3个W 1.1 是什么(What is it?...

5226
来自专栏机器之心

CVPR2018 | 新加坡国立大学论文:利用互补几何模型改善运动分割

选自arXiv 作者:徐迅等人 机器之心编译 参与:路、张倩 许多现实世界的场景不能简单地归类为普通的或者退化的,同时对场景的运动分割也不能简单地划分为基础矩阵...

2817

扫码关注云+社区