专栏首页人工智能前沿讲习SFFAI分享 | 黄怀波 :自省变分自编码器理论及其在图像生成上的应用

SFFAI分享 | 黄怀波 :自省变分自编码器理论及其在图像生成上的应用

导读

生成模型一直是机器学习和计算机视觉领域的重要研究方向。以生成对抗网络(GANs)和变分自编码器(VAEs)等为代表的深度生成模型已经成为当前人工智能研究的热点问题和重要前沿方向。目前的各种深度生成模型都各有其优点和缺点,比如生成对抗网络的训练稳定性和模式崩溃(mode collapse)问题等,变分自编码器生成图像比较模糊等。针对这些问题,我们提出了一种新的生成模型——自省变分自编码器,用于实现稳定训练和生成高分辨率真实图像。

背景

生成模型是利用一个已知的概率分布来拟合给定的数据样本。其本质是对数据分布先验知识的学习,一般具有推理(Inference)、采样(Sampling)和密度估计(DensityEstimation)等功能。对于比较简单的分布,可以采用概率PCA等线性模型来进行学习;而对于比较复杂的数据分布,现在一般通过深度生成模型来对分布进行建模和学习。

如图1所示,目前主流的深度生成模型主要包括生成对抗网络(GANs)、变分自编码器(VAEs)、自回归模型(Auto-regressiveModels)、流模型(Flow-basedmodels)和其他一些模型。在这些模型中,目前研究最多和应用最广的是生成对抗网络和变分自编码器这两种模型。生成对抗网络通过生成器和判别器之间进行对抗来生成跟真实分布非常接近的样本。它的优点是生成的图像真实清晰,在计算机视觉等任务中应用广泛;缺点是训练不稳定和容易出现模式崩溃的问题。变分自编码器模型通过优化一个变分下界函数来实现输入样本的重构和隐层代码上的先验约束。其训练稳定,能够进行推理和近似密度估计,但是生成的样本非常模糊。虽然很多研究者针对这些问题对生成对抗网络和变分自编码器模型进行了很多改进,但是如何以简单有效的方式训练和生成高分辨率真实图像仍然是一个非常具有挑战的问题。

图1 主流的深度生成模型

自省变分自编码器模型

当前主流的生成高分辨率图像的方法是将高分辨率图像进行分解,分多个阶段,先合成低分辨率图像,再逐渐放大合成高分辨率图像。典型代表是LapGAN或者StackGAN,以及英伟达在ICLR18上的工作PGGAN。这种多阶段训练的方式增加了模型的复杂度,增加了复现文章结果的难度。为此,我们提出了一种新的深度生成模型——自省变分自编码器,能够以简单有效的方式直接合成高清真实图像。

自省变分自编码器模型基于传统的变分自编码器模型。在变分自编码器模型中,优化函数包括两个方面,一个重建损失函数用于重构输入样本,一个KL散度函数用于对隐变量添加先验约束。借鉴生成对抗网络,我们将对抗引入了变分自编码器的训练中。在训练编码器的时候,使得真实样本的隐变量接近先验分布,生成样本的隐变量偏离先验分布;在训练生成器的时候,则要生成样本的隐变量接近先验分布。我们保留了重建损失函数,在训练过程中编码器和生成器既要对抗又要协作。

对于真实样本来说,我们方法的训练目标跟传统变分自编码器完全一致,这极大的稳定了模型训练。对于生成样本来说,对抗的引入则提高了样本的质量,克服了变分自编码器生成结果模糊的问题。实验表明,我们的方法能够稳定合成高分辨率真实图像,比如1024x1024大小的人脸图像,256x256大小的卧室、教堂、狗等自然图像。不仅在图像质量上,而且在量化指标上我们也取得了无条件生成(unconditionalgeneration)上当前最好的结果。

LSUNBEDROOM上训练,生成的256x256卧室图像

LSUNCHURCHOUTDOOR上训练,生成的256x256教堂图像

ImageNet上训练,生成的256x256狗图像

Take Home Message

我们方法目前仍然有一些局限性,主要是对于高分辨率图像训练时间仍然非常漫长(比如1024x1024的图像需要3周左右的时间)和对于自然图像来说生成结果仍然有继续提升的空间。另外,在条件生成领域,谷歌最近提出的BigGAN模型可以达到非常的量化指标。但是,除了使用了很多之前文章的trick外,BigGAN的性能提升主要依赖于大的batch-size和模型参数,训练平台TPU当前对大多数研究者来说仍然不现实。在大多数研究者计算资源有限的情况下,设计更加简单更加容易训练的模型仍然是一个值得继续研究的方向。

Reference [1] Van Oord, Aaron, Kalchbrenner, Nal, andKavukcuoglu, Koray. Pixel recurrent neural networks. In ICML, pp.1747–1756, 2016. [2] Denton, Emily L, Chintala, Soumith, Fergus, Rob, et al. Deep generativeimage models using a laplacian pyramid of adversarial networks. In NIPS,pp. 1486–1494, 2015.

[3] Dinh, Laurent, Sohl-Dickstein, Jascha,and Bengio, Samy. Density estimation using real NVP. In ICLR,2017.

[4] Goodfellow, Ian, Pouget-Abadie, Jean,Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville, Aaron, and Bengio, Yoshua. Generative adversarial nets. In NIPS,pp. 2672–2680, 2014. [5] Karras, Tero, Aila, Timo, Laine, Samuli, and Lehtinen, Jaakko. Progressivegrowing of GANs for improved quality, stability, and variation. In ICLR,2018.

[6] Kingma, Diederik P and Welling, Max.Auto-encoding variational bayes. In ICLR, 2014. [7] Li, Yujia, Swersky, Kevin, and Zemel, Rich. Generative moment matchingnetworks. In ICML, pp.1718–1727, 2015. [8] Wang, Ting-Chun, Liu, Ming-Yu, Zhu, Jun-Yan, Tao, Andrew, Kautz, Jan, andCatanzaro, Bryan. Highresolution image synthesis and semantic manipulation withconditional GANs. In CVPR, 2018. [9] Zhang, Zizhao, Xie, Yuanpu, and Yang, Lin. Photographic text-to-image synthesiswith a hierarchicallynested adversarial network. arXiv preprintarXiv:1802.09178, 2018.

[10] Kingma D P, Dhariwal P. Glow:Generative flow with invertible 1x1 convolutions[J]. arXiv preprintarXiv:1807.03039, 2018.

[11] Brock A, Donahue J, Simonyan K. LargeScale GAN Training for High Fidelity Natural Image Synthesis[J]. arXiv preprintarXiv:1809.11096, 2018.

[12] Le Tan D K, Le H, Hoang T, et al.DeepVQ: A Deep Network Architecture for Vector Quantization. In CVPR, 2018:2579-2582.

[13] J. Lazarow, L. Jin, and Z. Tu,“Introspective Neural Networks for Generative Modeling,” In ICCV, 2017, pp.2793–2802.

[14] Bordes F, Honari S, Vincent P.Learning to Generate Samples from Noise through Infusion Training. In ICLR,2017.

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:黄怀波

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据挖掘的前沿论文,看我们推荐的这7篇

    近年来,电商平台飞速发展,搭配问题是电商系统中的一个非常重要的任务,它涉及对商品的深入理解整合。阿里京东等公司,都设计了专门独立的搭配平台,比如时尚大脑,滴搭系...

    马上科普尚尚
  • 精选论文 | 图神经网络时间节点【附打包下载】

    最近,图神经网络广泛受到了各界的关注,基于图神经网络的模型和应用在异质图表示学习和零样本学习任务中取得了不错的效果。今天,两位主讲嘉宾为大家精选了图神经网络方法...

    马上科普尚尚
  • 语音关键词检测方法综述【附PPT与视频资料】

    随着智能音箱、语音助手等应用的出现,普通人也可以像科幻场景一样使用语音与机器进行交流。语音关键词检测是实现人机语音交互的重要技术,被广泛地应用于各类智能设备、语...

    马上科普尚尚
  • 简单到出人意料的CNN图像分类策略

    在这篇文章中,作者展示了为什么最先进的深度神经网络仍能很好地识别乱码图像,探究其中原因有助于揭示DNN使用让人意想不到的简单策略,对自然图像进行分类。

    昱良
  • 实际上,CNN图像分类策略简单到出人意料!

    在这篇文章中,作者展示了为什么最先进的深度神经网络仍能很好地识别乱码图像,探究其中原因有助于揭示DNN使用让人意想不到的简单策略,对自然图像进行分类。

    新智元
  • 神经网络似乎遵循一种令人费解的简单策略来对图像进行分类

    在这篇文章中,我将展示为什么最先进的深度神经网络仍能很好地识别乱码图像,以及这有助于揭示DNN似乎用来对自然图像进行分类的令人费解的简单策略。这些发现发表在IC...

    银河1号
  • DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

    编者按:Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的...

    AI科技评论
  • 微服务开源框架TARS 之 框架服务解析

    本文源自herman的系列文章之一《鹅厂开源框架TARS之运营服务监控》。相关代码已按TARS开源社区最新版本更新。

    TARS基金会
  • 30分钟学会用scikit-learn的基本回归方法(线性、决策树、SVM、KNN,Adaboost和GBRT)

    朱晓霞
  • 关于javascript的Object. hasOwnProperty,看我就够了

    通过for...in循环对象的所有枚举属性,然后再使用hasOwnProperty()方法来忽略继承属性。 换一种写法

    陌上寒

扫码关注云+社区

领取腾讯云代金券