《论文分享》 Diverse Image-to-Image Translation

论文分享

作者:李彦霖

编辑整理:萝卜兔

本周论文分享一篇关于图像到图像转换的文章。图像到图像转换任务的目的是希望学习到不同域之间的映射,以完成域之间的转换。比如灰度图--> 彩色图,低分辨图--> 高分辨图等。这类任务存在两个挑战:

一、对齐的训练数据少且难获得,如对应的白天与黑夜场景;

二、这种映射往往是多样的,即存在一对多的情况。

这篇文章提出了一种解耦的特征表示框架来解决这个问题,具体是将图像映射到两类空间中,一个是域不变的content空间,一个是域相关的attribute空间。生成器在生成图片时会同时考虑content 特征和attribute 特征。域相关的attribute空间目的是建模一个域特有的特征,域不变的content空间目的是得到不同域之间共有的特征。

Disentangled Representation for Image to Image Translation

首先来看下整个训练框架,我们的目标是使用不对齐的数据学习到一对多的映射X -- > Y。如下图所示,整个框架由content编码器Ec,attribute编码器Ea,生成器G,域判别器Ldomain和content判别器Lcontent组成。以X域为例,整个计算过程是:首先content编码器将图像映射到共享的域不变content空间,attribute编码器将图像映射到域相关的attribute空间,生成器基于content特征和attribute特征生成图像。域判别器Dx需要去判别X域中的真实图像和生成图像,content判别器Dc需要去判别两个域的content特征。

Disentangle Content and Attribute Representations

那么如何得到解耦的两类特征,即使得content编码器将不同域共有的特征编码到同一个空间C中,而attribute编码器分别编码域相关的特征。为了实现这个目的,采用了两种策略,共享权值和基于content的判别器。共享权值具体是共享content编码器的最后一层和生成器的第一层,即在high-level feature的层面共享。但是这种共享权值并不能保证同样的content特征来自两个域中的相同信息。因此在共享权值基础上,还需要加上content的判别器,这个判别器的目的是区别两个域的content特征,但另一方便,content编码器需要学习生成不能被判别器识别的特征。

Cross-cycle Consistency Loss

有了解耦的表达,那么可以通过结合任意一张图像的的content特征和目标域的attribute特征生成图像。基于这个性质作者提出了一个称为Cross-cycle Consistency Loss的损失函数来进行循环重建,使得可以使用非对齐的数据进行训练,大体上说就是使得X在经过两个变换后仍然为X,具体的过程如下:

Forward translation:给定两张不相关的图像x,y,使用content编码器和attribute编码器分别映射到content空间和attribute空间,然后通过交换attribute特征来生成图像u, v.

Backward translation:然后将u, v 也分别映射到content空间和attribute空间,同样的交换attribute特征得到重构的x,y.

经过上述两个转换过程,应该重构出x, y, 即:

Other Loss Functions

除了上述两个重要的损失函数,同时使用了其他的一些损失函数来保障网络的训练。

Domain adversarial loss:域判别器用来判别真实图像和生成图像,使得生成器生成足够真实的图像。

Self-reconstruction loss:除了cross-cycle reconstruction,还需要保证在同一个域中,使用content特征和attribute特征能够解码回原图。

KL loss:主要是为了在测试时能够在attribute空间进行随机采样,因此对attribute空间加了个N(0,1)的正则约束。

Latent regression loss:保证生成的图像和隐空间是可逆的。

实验

在生成图像时有两种方式,一种是在attribute空间进行随机采样来生成多样的图像,另外一种是从目标域中提取attribute特征来生成图像,两种方式得到的生成图分别如下。

总结

本文针对不同图像域之间转换的问题,提出了对域进行解耦表达的框架,通过content的对抗损失来提取域共有的特征,利用解耦的性质提出了cross-cycle consistency loss 来保证输入和重构输出的一致性,使得训练不依赖于对齐数据。

参考链接

论文链接:https://arxiv.org/abs/1808.00948

代码地址:https://github.com/HsinYingLee/DRIT

往期论文经典

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180807A0914G00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券