人工智能使用多生成对抗性学习的单生成器网络的图像到图像转换

然而,当属性标签不足以训练辅助分类器时,该方法可以学习低效的域映射,即使它引入了掩码矢量

摘要:图像转换是计算机视觉中的一个新兴领域,其目标是学习输入图像和输出图像之间的映射。但是,最近的方法需要多个生成器来建模不同的域映射,这对于某些多域图像转换任务来说效率低且无效。在本文中,我们提出了一种新方法SingleGAN,用单个发生器执行多域图像到图像的转换。我们引入域代码来明确控制不同的生成任务,并集成多个优化目标以确保翻译。几个不成对数据集的实验结果表明我们的模型在两个域之间的转换中具有优越的性能。此外,我们还探索了不同任务的Sinlele的变体,包括一对多域转换,多对多域转换和多模态一对一域转换。扩展实验表明了我们模型的普遍性和可扩展性。

1简介

最近,由于其在各种图像处理应用中的令人兴奋的潜力,越来越多的注意力被用于图像到图像的转换[1]。虽然现有方法在一对一映射问题上显示出令人印象深刻的结果,但它们需要构建多个生成器来建模多个映射,这在某些多域和多模型图像转换任务中效率低且无效。直观地说,许多多映射翻译任务不是独立的,并且在不同季节之间共享一些共同特征,例如场景内容。通过在相关任务之间共享网络,我们可以使我们的模型更好地概括每个分离的任务。在本文中,我们提出了一种单生成器生成对抗网络(GAN),称为SingleGAN,可以有效地解决多映射转换任务。为了指示特定的映射,我们引入域代码作为网络的辅助输入。然后我们整合多个优化目标来学习每个特定的翻译。

如图1所示,基础SingleGAN模型用于学习两个域之间的双射。由于每个域数据集不需要具有其他域的标签,因此SingleGAN可以充分利用现有的不同数据集来学习多域转换。为了探索SingleGAN的潜力和普遍性,我们还将其扩展到三个跨域翻译任务,这些任务更加复杂和实用。第一个变体模型尝试解决一对多域转换任务,该任务处理源域输入到不同目标域,例如图像样式传输。第二个模型探索多对多域转换任务。与最近的方法[2]不同,需要详细注释类别信息来训练辅助分类器,我们使用多个对抗性对象来帮助网络分别捕获不同的域分布。这意味着SingleGAN能够通过弱监督学习来学习多域映射,因为我们不需要用详细的通知标记所有训练数据。第三种变体模型试图通过引入属性潜在代码来增加生成多样性。在BicycleGAN [3]中使用了类似的想法来解决多模式翻译问题。我们的第三个模型可以被认为是BicycleGAN向不成对的图像到图像转换的推广。

总结一下,我们的贡献如下:

- 通过扩展它来实现三种不同类型的翻译任务,展示了SingleGAN的通用性和灵活性。

- 实验结果表明,我们的方法比几种最先进的方法更有效和通用。

2相关工作

2.1生成性对抗网络

受零和游戏的影响,典型的GAN模型由两个模块组成:发生器和鉴别器。当鉴别器学会区分真实样本和假样本时,生成器学习生成与真实样本无法区分的假样本。 GAN在各种计算机视觉任务中都取得了令人瞩目的成果,如图像生成,图像编辑[4]和表示学习[5]。最近,还积极研究了基于GAN的条件图像生成。具体而言,各种扩展GAN在许多生成任务中取得了良好的效果,如图像修复[6],超分辨率[7],text2image [8],以及其他领域,如视频[9]和3D数据[10]。在本文中,我们提出了一个可扩展的GAN框架,以实现基于条件图像生成的图像转换。

2.2图像到图像的翻译

图像到图像转换的想法可以追溯到图像类比[11],其中Hertzmann等人。提出了一个网络,将纹理信息从源模态空间传递到目标模态空间。自GAN蓬勃发展以来,图像到图像的翻译受到了越来越多的关注。作为开创性的工作,Pix2pix [1]使用cGAN [12]从配对数据执行监督图像转换。由于这些方法采用监督学习,因此需要足够的配对数据来训练网络。然而,准备配对图像可能是耗时且费力的(例如艺术风格化),甚至对于某些应用(例如,男性对女性面部变形)也是不可能的。为了解决这个问题,例如,CycleGAN [13],DiscoGAN [14]和DualGAN [15]引入了循环一致性约束,它广泛用于视觉跟踪[16]和语言领域[17],以学习说服力从未配对的图像映射图像域。基于共享潜在空间假设,UNIT [18]扩展了耦合GAN [19],以学习不带成对图像的不同域的联合分布。 FaderNet [20]也通过在潜在空间中添加鉴别器来成功控制属性。尽管这些方法促进了一对一映射图像转换的发展,但它们在多映射转换的可伸缩性方面存在局限性。通过在鉴别器中引入辅助分类器,StarGAN [2]利用单个生成器实现了不同面部属性之间的转换。然而,当属性标签不足以训练辅助分类器时,该方法可以学习低效的域映射,即使它引入了掩码矢量。

5.1网络架构

与[2,13,23,22]一样,我们的发生器tt使用ResNet [24]结构和编码器 - 解码器框架,其中包含两个用于下采样的步长-2卷积层,六个残余块和两个步长-2转置卷积上采样的层次。除了使用CBIN图层进行上采样之外,我们替换所有标准化图层。对于鉴别器D,我们使用两个鉴别器[1]来区分不同尺度的真实和虚假图像。对于多模式SingleGAN的实验,编码器模型E采用ResNet结构[3]。我们为编码器配备了CBIN,因此它也可以从不同的域图像中提取潜在信息。代码和模型可在SingleGAN获得。

6.6限制和讨论

虽然SingleGAN可以实现多域图像转换,但是需要同时进行多种语言学习。这种约束使得单一GAN一次只能学习有限的域转换,因为我们的存储空间有限。因此,探索现有模型的转移学习是很有价值的。此外,网络学习不同映射的能力也是一个重要问题。我们还观察到将一个单独的合适任务集成在一起

模型可以改善发电机的性能。但是,在未来的工作中还有待探索哪些任务可以相互促进。尽管如此,我们认为本文提出的方法对于探索多域生成工作是有价值的。

7Conclusion

在本文中,我们介绍了一个基于单一发生器的模型SingleGAN,用于学习多映射图像到图像的转换。通过为生成器引入多个广义学习,SingleGAN能够有效地学习各种映射。对比实验结果在数量和质量上表明我们的方法在许多图像翻译任务中都是有效的。此外,为了提高模型的多功能性和通用性,我们针对不同的任务提出了三种SingleGAN变体:一对多域转移,多对多域转移和具有不同属性的一对一域转移。实验结果表明,这些变体有效地改善了相应的翻译。

原文标题:SingleGAN: Image-to-Image Translation by a Single-Generator Network using Multiple Generative Adversarial Learning

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181022A02TWG00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券