专栏首页新智元效果逆天,谷歌最新 BEGAN 刷新计算机生成图像的质量记录

效果逆天,谷歌最新 BEGAN 刷新计算机生成图像的质量记录

【新智元导读】谷歌公司的 Berthelot、Tom Schumm 和 Metz 本周发表论文 BEGAN(Boundary Equilibrium GAN),提出了“边界均衡 GAN” 的概念,借鉴了 EBGAN 和 WGAN 各自的优点,使用简单的模型,在标准的训练步骤下取得了令人惊艳的效果。不仅如此,论文还提出了一个可以衡量收敛的超参数,实现了快速稳定的训练和很高的视觉质量。

先看一张图:

下图左右两端的两栏是真实的图像,其余的是计算机生成的。

过渡自然,效果惊人。

这是谷歌本周在 arXiv 发表的论文《BEGAN:边界均衡生成对抗网络》得到的结果。这项工作针对 GAN 训练难、控制生成样本多样性难、平衡鉴别器和生成器收敛难等问题,提出了改善。

尤其值得注意的,是作者使用了很简单的结构,经过常规训练,取得了优异的视觉效果。

作者在论文中写道,他们的主要贡献是:

  • 一个简单且具有鲁棒性的 GAN 架构,使用标准的训练步骤实现了快速、稳定的收敛
  • 一种均衡的概念,用于平衡判别器和生成器(判别器往往在训练早期就以压倒性优势胜过生成器)
  • 一种控制在图像多样性与视觉质量之间权衡的新方法
  • 用于近似衡量收敛的方法,据我们所知,目前发表过的这类方法另外只有一种,那就是 Wasserstein GAN(WGAN)

GAN 的结构特点和理论优势

在介绍 BEGAN 之前,有必要回顾一下 GAN 和 EBGAN(Engry-Based GAN,基于能量的 GAN)。它们是 BEGAN 的基础。

中国科学院计算技术研究所智能信息处理重点实验室助理教授杨双在她发表在“深度学习大讲坛”的文章《解读 GAN 及其 2016 年度进展》当中,做了很好的介绍。我们在取得授权后引用了介绍 GAN 和 EBGAN 的相关部分。

首先是基本的 GAN 模型。

“原始 GAN 模型的基本框架如上图所示,其主要目的是要由判别器 D 辅助生成器 G 产生出与真实数据分布一致的伪数据。模型的输入为随机噪声信号 z;该噪声信号经由生成器 G 映射到某个新的数据空间,得到生成的数据 G(z);接下来,由判别器 D 根据真实数据 x 与生成数据 G(z) 的输入来分别输出一个概率值或者说一个标量值,表示 D 对于输入是真实数据还是生成数据的置信度,以此判断 G 的产生数据的性能好坏;当最终 D 不能区分真实数据 x 和生成数据 G(z) 时,就认为生成器 G 达到了最优。

“D 为了能够区分开两者,其目标是使 D(x) 与 D(G(z)) 尽量往相反的方向跑,增加两者的差异,比如使 D(x) 尽量大而同时使 D(G(z)) 尽量小;而 G 的目标是使自己产生的数据在 D 上的表现 D(G(z)) 尽量与真实数据的表现 D(x) 一致,让 D 不能区分生成数据与真实数据。因此,这两个模块的优化过程是一个相互竞争相互对抗的过程,两者的性能在迭代过程中不断提高,直到最终 D(G(z)) 与真实数据的表现 D(x) 一致,此时 G 和 D 都不能再进一步优化。”

杨双介绍说,GAN 除了提供了一种对抗训练的框架,另一个重要贡献是其收敛性的理论证明。

“作者通过将 GAN 的优化过程进行分解,从数学推导上严格证明了:在假设 G 和 D 都有足够的 capacity 的条件下,如果在迭代过程中的每一步,D 都可以达到当下在给定 G 时的最优值,并在这之后再更新 G ,那么最终 Pg 就一定会收敛于Pdata。也正是基于上述的理论,原始文章中是每次迭代中优先保证 D 在给定当前 G 下达到最优,然后再去更新 G 到最优,如此循环迭代完成训练。这一证明为 GAN 的后续发展奠定了坚实基础,使其没有像许多其它深度模型一样只是被应用而没有广而深的改进。”

判别器:借鉴基于能量的GAN

杨双在《解读 GAN 及其 2016 年度进展》当中介绍,对 GAN 模型的理论框架层面的改进工作主要可以归纳为两类:一类是从第三方的角度(不是从GAN 模型本身)看待 GAN 并进行改进和扩展的方法;第二类是从 GAN 模型框架的稳定性、实用性等角度出发对模型本身进行改进的工作。

其中,“EBGAN 是 Yann LeCun 课题组提交到 ICLR2017的一个工作,从能量模型的角度对 GAN 进行了扩展。EBGAN 将判别器看做是一个能量函数,这个能量函数在真实数据域附近的区域中能量值会比较小,而在其他区域(即非真实数据域区域)都拥有较高能量值。因此,EBGAN 中给予 GAN 一种能量模型的解释,即生成器是以产生能量最小的样本为目的,而判别器则以对这些产生的样本赋予较高的能量为目的。

“从能量模型的角度来看待判别器和 GAN 的好处是,我们可以用更多更宽泛的结构和损失函数来训练 GAN 结构,比如文中就用自编码器(AE)的结构来作为判别器实现整体的GAN 框架,如下图所示:

在训练过程中,EBGAN 比 GAN 展示出了更稳定的性能,也产生出了更加清晰的图像,如下图所示。

生成器:借鉴 Wasserstein GAN

谷歌的这篇新论文提出的 BEGAN(Boundary Equilibrium GAN),将 AE 作为判别器,在架构上与 EBGAN 十分类似。

在生成器方面,BEGAN 则借鉴了 Wasserstein GAN 定义 loss 的思路。作者在论文中写道,“我们的方法使用从 Wasserstein 距离衍生而来的 loss 去匹配自编码 loss 分布。”

今年年初 WGAN 论文发布时,也在业界引发热议,当时新智元转载了郑华滨发表在知乎专栏的文章《令人拍案叫绝的 Wasserstein GAN,彻底解决 GAN 训练不稳定问题》

在 WGAN 中,判别器近似的 Wasserstein 距离与生成器的生成图片质量高度相关,如下所示:

相比传统 GAN 直接匹配数据分布,EBGAN 使用一种新的方法,将 loss 基于判别器的重构误差。作者通过一个额外的均衡条件,让生成器和判别器相互平衡。作者表示,他们的方法训练起来更方便,与传统 GAN 技巧相比架构也更简单。

EBGAN:简单模型,效果惊艳

回到我们介绍的 BEGAN,BEGAN 的架构十分简单,几乎所有都是 3×3 卷积,sub-sampling 或者 upsampling,没有 dropout、批量归一化或者随机变分近似。

判别器是 loss 为 L1 的自编码器,生成器每生成一幅图,这幅图判别器能够在 loss 很小的情况下自编码,生成器就算胜利。判别器胜利的条件则是①很好地将真实图像自编码,以及②很差地辨识生成的图像。

这篇论文的另一个贡献是提出了一个衡量生成样本多样性的超参数 γ:生成样本 loss 的预期与真实样本 loss的预期之比。这个超参数能够均衡 D 和 G,从而稳定训练过程。如果生成器表现太好,就侧重判别器。

不仅如此,这个超参数 γ 还提供了一个可以衡量的指标,用于判断收敛,最终也对应图像的质量。

摘要

我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equilibrium)的方法,以及一个配套的 loss,这个 loss 由 Wasserstein distance 衍生而来,Wasserstein distance 则是训练基于自编码器的生成对抗网络(GAN)使用的。此外,这种新的方法还提供了一种新的近似收敛手段,实现了快速稳定的训练和很高的视觉质量。我们还推导出一种能够控制权衡图像多样性和视觉质量的方法。在论文里我们专注于图像生成任务,在更高的分辨率下建立了视觉质量的新里程碑。所有这些都是使用相对简单的模型架构和标准的训练流程实现的。

测试结果:上面是基于能量的GAN(EBGAN)与边界均衡 GAN(BEGAN)的对比,后者由显著提升;下面展示展示了超参数 γ 值不同情况的对比,可以看出 γ 值越大图片质量越高。

论文地址:http://xxx.lanl.gov/pdf/1703.10717v1

参考资料

  1. 杨双,【青年学者专栏】解读GAN及其 2016 年度进展,深度学习大讲堂
  2. 郑华滨,令人拍案叫绝的Wasserstein GAN,知乎专栏

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌GAN 实验室来了!迄今最强可视化工具,在浏览器运行GAN

    Google AI和乔治亚理工学院的研究人员发布了一个学习GAN的交互式网站:GAN Lab!由TensorFlow.js 驱动,在浏览器就可以运行GAN,非常...

    新智元
  • 【Ian Goodfellow 强推】GAN 进展跟踪 10 大论文(附下载)

    ---- 编译:小潘、肖琴 【新智元导读】生成对抗网络GAN的提出者Ian Goodfellow在推特上推荐了10篇GAN论文,是跟踪GAN进展,了解最新技术...

    新智元
  • GAN最新进展:8大技巧提高稳定性

    生成对抗网络 (GAN) 是一类功能强大的神经网络,具有广泛的应用前景。GAN 本质上是由两个神经网络组成的系统——生成器 (Generator) 和鉴别器 (...

    新智元
  • 【学术】新的神经网络即将问世,它看起来很恐怖

    ? 这一切是怎么开始的? 生成式对抗网络进展 将典型的和经过良好研究的神经网络(如图像分类器)看作是神经网络技术的大脑左半球。考虑到这一点,很容易理解什么是生...

    AiTechYun
  • 以合成假脸、假画闻名的GAN很成熟了?那这些问题呢?| 技术头条

    【导语】过去两年,生成对抗网络(GAN)取得了飞速、充分的发展,尤其是应用于图像合成技术的模型,快到几乎让人跟不上,每隔一段时间,我们肯能就能看到应用在不同任务...

    AI科技大本营
  • 关于GAN的七个问题:谷歌大脑工程师带你梳理生成对抗网络的过去未来

    比起自己埋头写论文,聊聊自己感兴趣的方向,期待一下旁人的智慧,或许也是个不错的主意。

    量子位
  • 新手指南综述 | GAN模型太多,不知道选哪儿个?

    今天看到这么一个论文题目“A Novel Framework for Selection of GANs for an Application ”,这名字有、6...

    公众号机器学习与生成对抗网络
  • 生成式对抗网络 GAN

    生成式对抗网络 GAN 是 2014 年由 Goodfellow 提出的一种新颖的生成式模型,随后得到了快速发展。

    echobingo
  • GAN原理,优缺点、应用总结

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_25737169/article/d...

    DoubleV
  • 综述推荐 | CV视觉中GAN的调研和分类

    SGAN是在半监督学习的背景下提出的,与监督学习(其中每个样本都需要一个标签)和非监督学习(其中不提供标签)不同,半监督学习具有一小部分示例的标签。与FCGAN...

    公众号机器学习与生成对抗网络

扫码关注云+社区

领取腾讯云代金券