通过协同绘制用GAN合成高分辨率无尽道路

来源:arXiv

编译:Bing

生成对抗网络一直是深度学习的重要工具,经过近几年的发展,GANs也衍生出了许多不同的模式,例如DCGANs、Wasserstein GANs、BEGANs等。本文将要探讨的是条件GAN(Conditional GANs)在图像生成中的应用。

条件GANs已经应用与多种跟图像有关的任务中了,但分辨率通常都不高,并且看起来很不真实。而在这篇论文中,英伟达和加州大学伯克利分校的研究人员共同提出了一个新方法合成高分辨率的街景,利用条件GANs从语义标签映射生成的2048x1024的图像不仅在视觉上更吸引人同时生成了新的对抗损失以及新的多尺度生成器和判别器体系结构。

以下视频是对该项目的成果介绍以及用户界面和生成的图片对比(温馨提示:请在WiFi下观看视频)。

合成实例级别的图像

接下来就是该项目的具体实验过程。首先,是基线算法pix2pix的运用。pix2pix是用于图像翻译的条件GAN框架,它包含一个生成网络G和一个判别网络D。在这项任务中,生成网络G的目标就是将语义标签映射翻译成接近真实的图像,而判别网络D的目标是将生成图像与真实图像作对比。

pix2pix利用U-Net作为生成网络,同时用基础的卷积网络作为判别器。然而,利用数据集Cityspaces生成的图像分辨率最高只有256x256的,以至于训练过程十分不稳定,生成图片的质量也不是很好,所以pix2pix框架需要进行一些改善升级。

研究人员将生成网络换成由粗到精的网络,并采用多尺度的判别网络结构。同时采用稳定的对抗学习目标函数。

由粗到精的生成网络(Coarse-to-fine generator)

研究人员将生成网络分成了两部分:全局生成网络G1和局部增强网络G2。全局生成网络G1的可接受的分辨率为1024x512,局部增强网络输出的图像分辨率为前一个图像的4倍。如果还想得到更高的合成图像,可以继续增加局部增强网络。

生成网络结构

多尺度判别网络(multi-scale discriminators)

对GAN的判别网络来说,高分辨率的图像是不小的挑战。为了区分真正的高清图片与合成图片,判别网络需要一个巨大的接收区(receptive field)。所以这就需要一个更深的网络或更大的卷积核。但是这两种方法都会增加网络的能力,有可能导致过度拟合。并且它们在训练时都需要更大的存储脚本,这对高分辨率的图像生成来说是很稀少的。

为了解决这一问题,研究人员提出了使用多尺度判别器的方法,即用三种拥有同样结构的网络,但针对不同尺寸的图片运行。能处理最大尺寸的网络拥有最大的接收区,它能引导生成网络生成整体更协调的图像。而处理最小尺寸的网络能引导生成网络在细节上处理得更仔细。

损失函数

研究人员从鉴别网络的多个层中提取特征,并学习从真实和合成图像中匹配这些中间表征。为了方便表示,我们将判别网络Dk的第i层表示为Dk(i),特征匹配损失LFM(G, Dk)表示为:

其中T是总层数,Ni表示每层的组成要素。

最终将GAN损失和特征匹配损失结合起来的函数表示为:

其中λ控制两项的重要性。

现有的图像合成方法仅使用语义标签映射,其中每个像素值代表像素所属的对象类别。这种映射不区分同一类别的对象。另一方面,实例级别的语义标签映射包括每个单独对象的唯一ID。要包含实例映射,一个简单的方法是将其直接传递给网络,或者将其编码成一个单独的向量。然而,由于不同图像可能包含不同数量相同类别的对象,所以这两种方法在实践中都难以实现。

所以我们选择用实例映射,它能够提供语义标签映射中没有的对象边界(object boundary)。例如,当多个相同类别的对象彼此相邻是,只查看语义标签映射无法区分它们。

下图显示用实例边界映射训练的模型,图像边界更清晰。

结果对比

为了量化合成图像的质量,研究人员对其进行语义分割,并比较预测的预测的部分与输入部分的匹配程度。从下表可以看出,我们使用的方法远远优于其他方法,并且十分接近原始图像。

在CityScapes数据集上,在没有损失函数的情况下,我们的方法也依然比其他两种方法更优。

在NYU数据集上,我们的方法生成的图片比其他方法生成的图片看起来更真实。

其他结果:

输入标签(左)与合成图像(右)

放大后可以看到图中对象的细节更清晰

在ADE20K数据集的实验,我们的结果生成的图片真实度与原图相差无几

在Helen Face数据集上的实验,用户可以在互动界面实时改变脸部特征。例如变换肤色、加胡子等等

各位可以到网站上自行绘制你的“大作”:uncannyroad.com/

结语

实验的结果表明,条件GANs无需手动调整损失函数或提前训练网络,就能合成高分辨率的逼真图像。我们的成果将帮助许多需要高分辨率图像,但却没有预先训练网络的领域,比如医疗影像和生物领域。

同时,这篇论文还向我们展示出,图像到图像的合成pipeline可以用来生成多种结果。研究人员认为这些成果有助于扩大图片合成的应用范围。

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

机器学习必须熟悉的算法之word2vector(二)

在上一篇文章中,我们简述了skip gram版word2vector的基本原理,留下一个问题待解决,那就是网络非常大,这将导致如下几个困难:1、在上面训练梯度下...

42770
来自专栏机器之心

学界 | CMU&FAIR ICCV论文:通过传递不变性实现自监督视觉表征学习

选自arXiv 机器之心编译 参与:路雪、黄小天 通过自监督学习学习视觉表征在计算机视觉领域逐渐开始流行。本文提出可通过不变性的传递实现视觉表征自监督学习,该网...

357150
来自专栏程序生活

机器学习-范数正则化:L1正则,L2正则

19530
来自专栏IT派

推荐!PlayGround:可视化神经网络

PlayGround是一个在线演示、实验的神经网络平台,是一个入门神经网络非常直观的网站。这个图形化平台非常强大,将神经网络的训练过程直接可视化。同时也能让我们...

15720
来自专栏大数据智能实战

基于tensorflow + Vgg16进行图像分类识别的实验

图像分类识别目前已经得到了很大的飞跃,特别是15年微软提出的resnet已经超越人类,能够对图像中的物体进行更好的识别。 为了初步了解一下图像分类识别的过程,学...

81490
来自专栏机器之心

学界 | NTIRE2017夺冠论文:用于单一图像超分辨率的增强型深度残差网络

选自SNU 作者:Bee Lim等 机器之心编译 参与:Smith 图像超分辨率(SR)问题,尤其是单一图像超分辨率(SISR)问题,在近几十年中已经受到了广泛...

47450
来自专栏数据派THU

独家 | 一文带你上手卷积神经网络实战(附数据集、学习资料)

原文标题:Understanding deep Convolutional Neural Networks with a practical use-case ...

43080
来自专栏人工智能LeadAI

R-CNN 物体检测第二弹(Fast R-CNN)

今天,重看了 R-CNN 的后续改进 Fast R-CNN(Arxiv版)-本文中提到的paper,若未特别指明,说的就是此版本。 这里提一把辛酸泪。15年8月...

47860
来自专栏CVer

[计算机视觉论文速递] 2018-03-30

通知:这篇文章有9篇论文速递信息,涉及目标检测、图像分割、目标跟踪、三维重建和立体匹配等方向 PS:由于时间问题,本文没有附上相应图示,还请见谅 前文回顾 Te...

401140
来自专栏企鹅号快讯

干货!这里有一份神经网络入门指导,请收下!

图片来源于网络 翻译 | 林椿眄 编辑 | Donna 本周,我们为您准备了一份数据科学家Ben Gorman撰写的神经网络指导。这份指导包含了他具体的学习思路...

20170

扫码关注云+社区

领取腾讯云代金券