首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图像合成神器 MSG-GAN入选CVPR2020,超越最先进GAN,稳定多尺度高分辨率

图像合成神器 MSG-GAN入选CVPR2020,超越最先进GAN,稳定多尺度高分辨率

作者头像
新智元
发布2020-04-01 16:36:11
9230
发布2020-04-01 16:36:11
举报
文章被收录于专栏:新智元新智元新智元


新智元报道

来源:arxiv

新智元编辑部

【新智元导读】今天分享一篇被CVPR 2020接收的论文,该文提出了多尺度梯度生成对抗网络(MSG-GAN),这是一种简单而有效的技术,为高分辨率图像合成提供了一种稳定的方法,并作为常用的渐进生长技术的替代。与最先进的GAN相比,本文的方法在尝试的大多数情况下都与之媲美或超越其性能。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

今天分享一篇被CVPR 2020接收的论文,这篇论文与生成对抗GAN相关,题目为“MSG-GAN: Multi-Scale Gradient GAN for Stable Image Synthesis”(MSG-GAN:用于稳定图像合成的多尺度梯度GAN)。

摘要

虽然生成对抗网络在图像合成任务中取得了巨大的成功,但众所周知,它们很难适应不同的数据集,部分原因是训练过程中的不稳定性和对超参数的敏感性。这种不稳定性的一个普遍接受的原因是,当真实和虚假分布的支持没有足够的重叠时,从鉴别器到发生器的梯度变得不具信息性。本文提出了多尺度梯度生成对抗网络(MSG-GAN),这是一种简单而有效的技术,通过允许梯度流从鉴别器到发生器在多个尺度上流动来解决这个问题。该技术为高分辨率图像合成提供了一种稳定的方法,并作为常用的渐进生长技术的替代。结果表明,MSG-GAN在不同大小、分辨率和域的多种图像数据集上,以及不同类型的丢失函数和结构上都稳定收敛,且具有相同的固定超参数集。与最先进的GAN相比,在我们尝试的大多数情况下,我们的方法都能与之媲美或超越其性能。

图1:MSG-GAN技术的结果

引言:GAN训练存在两个比较严重的缺陷

生成式对抗网络(Generative Adversarial Networks,GANs)是蒙特利尔大学的Ian Goodfellow于2014年提出的一种生成模型,目前已经成为高质量图像合成的业界标准。

Ian Goodfellow

GAN的成功来自于这样一个事实,即它们不需要手动设计的损失函数来进行优化,而且能够生成复杂的数据分布,且无需进行明确定义。尽管基于流量的模型允许直接使用最大似然估计(显式和隐式)训练生成模型,但生成图像的保真度并未能够与最新的GAN模型相匹配。但是,GAN训练存在两个比较严重的缺陷:(1)模式崩溃问题和(2)训练的不稳定性

当发生器网络仅能够捕获数据分布中存在的方差子集时,就会发生模式崩溃的问题。尽管很多论述试图解决这个问题,目前这仍是一个开放的研究领域。但在此项研究中,我们解决了训练不稳定的问题。这是GAN的一个基本问题,在过往的研究著述中已被广泛报道。

我们研究了,在不依赖于先前方法(例如渐进式增长技术)的情况下,如何利用不同尺度的梯度生成高分辨率图像。这可以解决训练的不稳定性问题。

图2:我们的架构包括从发生器的中间层到判别器的中间层的连接。

MSG-GAN允许判别器不仅查看生成器的最终输出结果(最高分辨率),而且还可以查看中间层的输出结果(图2)。结果,判别器成为发生器的多个标度输出的函数,并且重要的是,将梯度同时传递给所有标度。

此外,我们的方法对于不同的损失函数(我们展示了WGAN-GP和具有单侧梯度罚分的非饱和GAN损失的结果),数据集(我们在各种常用数据集和新创建的Indian Celebs数据集上演示结果)和体系架构(我们将MSG方法与ProGAN和StyleGAN基础架构集成在一起)具有鲁棒性。就和渐进式增长一样,我们注意到,多尺度梯度在FID得分方面相比于原始DCGAN体系架构有显著提高

但是,我们的方法相比于现有的方法,在训练时间相同的情况下在大多数现有数据集上性能较优,而无需额外的超参数(渐进式增长需要引入超参数),例如不同生成阶段的训练时间表和学习速率。这种鲁棒性使得MSG-GAN方法可以很容易地在新数据集上“开箱即用”。而相比之下,如果使用基于渐进式增长的方法,则在和之前相同的超参数集上效果不佳(请参见表1和2)。我们还通过对高分辨率FFHQ数据集进行消融实验,表明了在所有分辨率下进行多尺度连接的重要性。

总而言之,我们有如下贡献:

1. 我们引入了一种用于图像合成的多尺度梯度技术,该技术提升了训练的稳定性。

2. 我们能够在许多常用数据集上鲁棒地生成高质量样本。

实验:所有模型都使用RMSprop进行训练

实验虽然评估GAN生成的图像的质量并不是一件容易的事,但当今最常用的指标是初始得分(IS,越高越好)和Frechet´初始距离(FID,越低越好)。为了将我们的结果与以前的工作进行比较,我们将IS用于CIFAR10实验,将FID用于其余实验,并报告“显示的真实图像数量”,如先前的工作所示。

新的印度名人数据集

除了现有的数据集外,我们还收集了一个由印度名人组成的新数据集。我们获取新数据集的目的是尝试使用非常小的尺寸(就图像数量而言)的数据集,因为GAN社区已经表明,数据集的尺寸对于创建良好的生成模型很重要。为此,我们使用类似于CelebA-HQ的过程收集了图像。首先,我们通过抓取相关搜索查询的网页来下载印度名人的图像。然后,我们使用现成的面部检测器检测到面部,并裁剪所有图像并将其调整为256x256的大小。最后,我们通过滤除低质量,错误和低光照的图像来手动清理图像。最后,数据集仅包含3K个样本,比CelebA-HQ小一个数量级。该数据集将被公开以供研究。

实现细节

我们将在分辨率和大小(图像数量)不同,分辨率高的各种数据集上评估我们的方法。CIFAR10(60x图像,分辨率为32x32);牛津花(8K图像,分辨率为256x256),LSUN教堂(126K图像,分辨率为256x256),印度名人(3K图像,分辨率为256x256),CelebA-HQ(3万图像,分辨率为1024x1024)和FFHQ(70K图像,分辨率为1024x1024)。

图3:由MSG-StyleGAN在不同的中级分辨率(256x256)数据集上生成的随机,未整理的样本。我们的方法用相同超参数就可以在所有数据集中生成高质量的结果。

表1:在中级分辨率(即256x256)数据集上进行的实验。我们尽可能使用作者提供的分数,否则使用官方代码和建议的超参数(表示为“ *”)训练模型。

对于每个数据集,我们使用相同的初始潜在维数512,从标准正态分布N(0,I)得出,然后进行超球面归一化。对于所有实验,我们对MSG-ProGAN和MSG-StyleGAN使用相同的超参数设置(lr = 0.003),唯一的区别是上采样层的数量(较低分辨率的数据集较少)。

图4: MSG-StyleGAN在高分辨率(1024x1024)数据集上生成的随机,未整理的样本

表2:在高分辨率(1024x1024)数据集上进行的实验。我们尽可能使用作者提供的分数,否则使用官方代码和推荐的超参数(表示为“ *”)训练模型。

所有模型都使用RMSprop进行了训练,生成器和鉴别器的学习率均为0.003。我们根据标准正态N(0,I)分布初始化生成器和鉴别器的参数。为了与先前发表的工作相匹配,所有StyleGAN和MSG-StyleGAN模型都经过带有单面GP的非饱和GAN损耗训练,而ProGAN和MSGProGAN模型都具有WGAN-GP损耗函数进行训练。

图5:训练早期MSG-GAN中的所有层生成结果的分辨率几乎是同步的,随后在所有分辨率下生成图像的质量同时提高。在整个训练过程中,生成器仅对图像的潜在固定点进行最小的增量改进。

图6:训练期间的图像稳定性。这些图显示了在CelebA-HQ数据集上,从相同潜在代码生成的图像在连续epoch下的MSE(36个潜在样本平均值)。MSG-ProGAN会随着时间稳定收敛,而ProGANs在各个时期仍会有很大的变化。

我们还扩展了MinBatchStdDev技术,将一批激活的平均标准偏差馈送到鉴别器,以提高样本多样性,从而达到我们的多尺度设置。为此,我们在鉴别符中每个块的开头添加一个单独的MinBatchStdDev层。这样,鉴别器获得所生成样本的批统计以及每个尺度上的直线路径激活,并且可以检测到生成器在某种程度上的模式崩溃。

表3:CIFAR-10的学习率鲁棒性。我们看到,在一系列学习率范围内我们的方法收敛到相似的IS分数。

表4:高分辨率(1024x1024)FFHQ数据集上不同程度的多尺度梯度连接的消融实验。较差的包含(4x4)和(8x8)的连接,中间的包含(16x16)和(32x32)的连接;较好的是(64x64)和(1024x1024)。

表5:在高分辨率(1024x1024)FFHQ数据集上使用不同的合并方程进行的实验。

当我们自己训练模型时,我们报告训练时间和使用的GPU,并在可能的情况下尝试使用相同的机器,以便可以直接进行训练时间比较(除Oxford Flowers ProGAN与MSG-ProGAN以外的所有情况)。所显示的实际图像数量和训练时间的变化是由于以下事实:按照惯例,我们报告了在固定次数的迭代中获得的最佳FID得分,以及达到该得分所花费的时间。复制研究工作所需的所有代码和经过训练的模型都可以在https://github.com/akanimax / msg-stylegan-tf上用于研究目的。

讨论:真正的照片真实性还未实现

局限性和未来工作

我们的方法并非没有局限性。我们注意到,使用渐进式训练,以较低的分辨率进行的第一组迭代要快得多,而MSG-GAN的每次迭代花费的时间相同。但是,我们观察到MSG-GAN需要更少的总迭代次数才能达到相同的FID,并且通常在总训练时间相似的情况下才这样。

最后,我们注意到,在FFHQ和CelebAHQ的面部数据集上,我们没有超过StyleGAN的生成质量。造成这种情况的原因很多,其中包括超参数选择不当,或者StyleGANs架构更适合这些数据集。另外,由于我们在MSGStyleGAN中进行了多尺度修正,因此我们的方法无法利用混合正则化技巧,在混合技巧中,将多个潜在矢量进行混合,并且由鉴别器强制得到的图像是真实的。这样做是为了允许在测试时在不同级别混合不同样式,同时也提高了整体质量。有趣的是,即使我们没有明确强制执行混合正则化,我们的方法仍然能够生成合理的混合结果。尽管没有提高FFHQ上的FID分数,但我们的方法在其他数据集上的分数更高,并且引入了一种易于使用的高分辨率合成新方法,可能会激发后续工作,从而进一步提高结果质量。

结论

尽管在实现逼真的高分辨率图像合成方面已取得了巨大的进步,但真正的照片真实性还没有实现,特别是在外观上存在很大差异的领域方面。在这项工作中,我们介绍了MSG-GAN技术,以一种简单的方法,利用GAN生成高分辨率的多尺度图像。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】今天分享一篇被CVPR 2020接收的论文,该文提出了多尺度梯度生成对抗网络(MSG-GAN),这是一种简单而有效的技术,为高分辨率图像合成提供了一种稳定的方法,并作为常用的渐进生长技术的替代。与最先进的GAN相比,本文的方法在尝试的大多数情况下都与之媲美或超越其性能。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档