专栏首页中科院渣渣博肆僧一枚TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images

TuiGAN: Learning Versatile Image-to-ImageTranslation with Two Unpaired Images

简介

一个无监督的图像-图像转换(UI2I)任务处理学习两个域之间的映射没有配对的图像。虽然现有的UI2I方法通常需要来自不同领域的大量未配对的图像进行训练,但是在许多情况下,训练数据是非常有限的。在本文中,我们论证了即使每个域只包含一个映像,UI2I仍然可以被实现。为此,我们提出了TuiGAN,这是一个生成模型,只针对两个非匹配的用户,相当于一次性的无监督学习。使用TuiGAN,图像将以粗到细的方式转换,其中generatedimage将逐渐从全局结构细化为局部细节。我们进行了大量的实验来验证我们的通用方法可以在各种UI2I任务上优于强基线。此外,TuiGAN能够与经过充分数据训练的最先进的UI2I模型实现相当的性能。

1、简介

非监督图像-图像转换(UI2I)任务的目的是将图像从源域映射到目标域,保留主要源内容并转移目标风格,而没有配对数据可用来训练模型。最近的UI2I方法取得了显著的成功[26,22,38,25,3]。其中条件UI2I备受关注,其中给出了两幅图像:一幅来自源域的图像用于提供主内容,另一幅来自目标域,用于指定主内容应该转换为哪种样式。要实现UI2I,通常需要从源域和目标域收集大量未配对的图像。然而,我们经常遇到这样的情况,即没有足够的未配对数据来训练图像翻译器。一种极端的情况类似于一次性无监督学习,在这种情况下,只有一幅源域图像和一幅目标域图像是不配对的。这样的场景在现实世界中有广泛的应用,例如,拍摄一张照片,然后将其转换为给定图片的特定样式,或者用targetobjects代替图像中的对象进行图像操作。在本文中,我们向这个方向迈出了第一步,只给出两个未配对的图像来研究UI2I。

注意,上面的问题包含了传统图像样式的transfertask。这两个问题都需要一个源图像和一个目标图像,分别服务于内容图像和样式图像。在图像风格转换中,用于描述翻译图像的风格(如预训练深度特征[7]的Gram矩阵)与风格图像应该匹配(如图。1 (a))。在我们的广义问题中,不仅样式需要匹配,更高层次的语义信息也需要匹配。如图1(c)所示,在从斑马到马的转换中,不仅转换了背景风格(如prairie),还转换了高级语义(如(例如斑马的轮廓)也发生了变化。实现UI2I需要模型有效地捕捉两个域之间的域分布变化,这是我们的问题的最大挑战,因为只有两个图像可用。为了实现这一一次性转换,我们提出了一种新的条件生成对抗网络TuiGAN,该网络通过逐步将图像由粗到细,将输入图像的域分布转移到目标域。渐进式翻译使模型能够通过在不同尺度上不断变化接收域来提取两幅图像之间的潜在关系。具体地说,我们使用了两个金字塔生成器和鉴别器来逐步细化生成的结果,从全局结构到局部细节。对于相同规模的每一对生成器,它们负责生成与目标域图像相似的图像。对于同一尺度上的每一对鉴别器,它们负责捕获当前尺度下两个域的域分布。我们论文中的“一次性”术语与[1,4]中的术语不同,后者使用来自UI2I的源域的单个图像和来自目标域的一组图像。相比之下,在我们的工作中,我们只使用来自两个域的两个未配对的图像。我们使用不同的UI2I任务对各种基线方法进行了广泛的实验验证,这些任务包括马分解斑马、外观分解标签、航空地图分解地图、苹果分解橘子等等。实验结果表明,该方法能有效地解决图像的一次平移问题。我们展示了我们的模型不仅可以在一次性场景中优于现有的UI2I模型,而且更引人注目的是,在经过充分数据训练的UI2I模型下,还可以实现可预测的性能。

我们的贡献可以总结如下:

  1. 我们提出了一个TuiGAN来实现图像到图像的翻译只有两个不配对的图像。
  2. 我们利用两个条件甘斯金字塔逐步翻译图像从粗到细。
  3. 我们演示了一个广泛的UI2I任务可以处理使用我们的通用模型。

2、相关工作

2.1、图像到图像翻译

最早的图像-图像转换(I2I)概念可以在[11]中提出,[11]支持多种“图像滤镜”效果。Rosales等人[31]提出使用贝叶斯框架来推断源图像和目标图像之间的对应关系。随着深度神经网络的发展,生成对抗网络[8]的提出给I2I的许多研究带来了启发。Isola等人[15]提出了一种称为“pix2pix”的条件GAN模型,用于更广泛的监督I2I任务。然而,成对数据在许多情况下可能很难甚至不可能获得。提出了disgan[20]、CycleGAN[38]和DualGAN[35]来解决无监督图像到图像的转换(UI2I)问题,通过约束两个跨域转换模型来保持循环一致性。Liu等人[27]提出了一个用于少镜头UI2I的FUNIT模型。但是FUNIT不仅需要大量的训练数据和计算资源来推断不可见的域,而且需要训练数据和不可见的域共享相似的属性。我们的工作不需要任何预培训和特殊形式的数据。与我们的工作相关,Benaim et al.[1]和Cohen et al.[4]提出了解决一次性跨域翻译问题,即给定源域的一幅图像和目标域的一组图像,获取一个单向映射函数。此外,他们的方法并没有将图像以相反的方向进行平移,因为他们认为在目标域中看到一个样本很难捕获域分布。然而,在这项工作中,我们专注于解决UI2I只给出两个未配对的图像,从两个方向实现I2I。

2.2、图像风格迁移

图像风格转换可以追溯到Hertzmann等人的作品[10]。最近的方法使用神经网络来学习风格统计。Gatys等等。[7]首先通过最小化预先训练好的深度特征的Gram矩阵来进行图像风格的模型转移。Luan等[28]进一步提出了实现photorealisticstyle transfer,以保持内容图像的photorealism。为了避免在语义一致的区域中出现不一致的风格,Li等人[24]引入了一个两步框架,其中两步都有一个封闭形式的解决方案。然而,这些模型很难转换更高层次的语义结构,如对象转换。我们证明了我们的模型可以超越Li etal。在各种UI2I任务中的[24]。

2.3、单图像生成模型

单一图像生成模型的目的是捕捉动物的内部分布。提出了基于条件GAN的纹理扩展[37]和图像重定向[33]模型。InGAN[33]使用单一的自然输入进行训练,并通过图像特异性GAN学习其内部补丁分布。基于无条件GAN的模型也被提出用于纹理合成[2,23,16]和图像处理[32]。特别是SinGAN[32]采用无条件金字塔生成模型来学习基于不同尺度图像的patch分布。然而,这些单一图像生成模型通常只考虑一个图像,而不捕捉两个图像之间的关系。相比之下,我们的模型旨在捕捉两个未配对图像之间的分布变化。通过这种方式,我们的模型可以在保持其内部内容一致性的同时,将图像从源分布传递到目标分布。

3、方法

给定两个图像IA∈A和IB∈B,其中A和B是两个图像域,我们的目标是将IA转换为IAB∈B,将IB转换为IBA∈A,而不需要任何其他数据。由于我们只有两个未配对的图像,翻译结果(如IAB)应该继承源图像的域不变特征(如IA),并用目标图像的域特定特征(如IA)替换域特定特征(如:IB)为了实现这样的图像平移,我们需要得到一对映射函数GAB: a→B和GBA:B→a,这样:

我们的公式是为了学习IA和IB之间的内部域分布变化,考虑到训练数据非常有限,gabandgbaareareas实现为两个多尺度条件GANs,逐步将图像由粗翻译为细。这样,训练数据可以在不同的分辨率尺度上得到充分利用。我们下采样IA和IB到N个不同的尺度,然后获得

,其中

从IA和IB分别从中下采样得到,通过一个尺度因子

。在之前的文献中,我们研究了多尺度的结构,如多训练图像的非传统图像生成[18,19,5,12]、多对训练图像[34]的条件图像生成和单训练图像[32]的图像生成。在本文中,我们利用了单镜头无监督学习的多尺度架构的好处,其中仅使用两张不对称图像来学习UI2I。

3.1、网络结构

所提TuiGAN的网络结构如图2所示。整个框架由两个对称的转换模型组成:IA→IAB的GAB(图2中上部)和IB→IBA的GBA(图2中底部)。GAB和GBA由{GnAB}Nn=0和{GnBA}Nn=0的一系列生成器组成,可以实现相应尺度下的图像平移。在每一个图像尺度上,我们还需要鉴定器DnA和DnB(n∈{0,1,···,n})来验证输入的图像是否是对应域中的自然图像。渐进式翻译从分辨率最低的图像开始,逐渐向更高的分辨率移动。GNAB和GNBA首先将INA和INB映射到对应的目标域:

为图像与scalesn <N,发电机GnAB有两个输入,InA和之前生成的in +1AB。类似地,GnBA将InB和In+1BA作为输入。

↑意味着使用双三次的upsampling调整图像的缩放系数。利用ab + 1, GnAB可以与更多细节,完善前面的输出和ab + 1还提供了全球结构目标图像的当前resolution.Eqn。(3)应用迭代,直到最终输出I0AB和I0BA。GnABis的网络架构如图3所示。请注意,GnAB和GnBA共享相同的体系结构,但权重不同。GnAB由两个全卷积网络组成。在数学上,GnAB的工作原理如下:

其中⊗表示pixel-wise乘法。如Eqn所示。(4),我们首先使用Φ预处理InA InAB,Φ作为初始翻译。然后,我们使用一个Ψto生成maskAn注意力模型,模型长期和多尺度depen-dencies图像区域(36岁,30)。Ψ需要InAB,Φ+ 1↑AB和InAas考虑平衡输入和输出两个尺度的结果。最后,ΦInAB和+ 1↑AB是线性组合通过生成一个输出InAB。

同样,翻译IB→IBA的n级尺度执行如下:

通过这种方式,生成器聚焦于图像中负责在当前尺度上合成细节的区域,并保持之前学到的全局结构在之前的尺度上保持不变。如图所示。之前的生成器生成了斑马素+1↑AB的全局结构,但仍然不能生成条纹细节。在次尺度上,利用电流发生器生成斑马的注意力图,在斑马上添加条纹细节,在实验中得到较好的效果。

3.2、损失函数

我们的模型从低分辨率逐步训练到高分辨率。每个量表在培训后保持固定。对于任意n∈{0,1,···,n},则第次尺度的总损失函数定义如下:

其中,LnADV、LnCYC、LnIDT、LnTV分别为对抗性损失、周期一致性损失、同一性损失和总变异损失,而CYC、拟合IDT、在每个尺度上,发生器的目标是最小化LnALL,而鉴别器的目标是最大化LnALL。我们将详细介绍这些损失函数。

对抗损失:对抗性损失建立在描述器试图从合成图像中区分真实图像和生成器试图通过生成真实图像来欺骗鉴别器这一事实之上。在每个标量上,都有两种判别器DnAa和DnB,它们以一幅图像作为输入,输出该输入在相应域内是一幅自然图像的概率。我们选择wgn - gp[9]作为对抗性损失,通过剪裁权重和梯度惩罚可以有效提高对抗性训练的稳定性:

其中

是惩罚系数。

循环一致性损失条件GAN的训练问题之一是模式坍塌,即模式坍塌。,无论输入是什么,发生器都能产生特别可信的输出。我们利用循环一致性损失[38]约束模型,以保持平移后输入图像的固有特性:

我们注意到,在一次图像变换中,依靠上述两种损失很容易导致颜色[38]和纹理错位的结果。为了解决这个问题,我们在每个尺度上引入了恒等损失,用LnIDT表示。数学上,

我们发现identity loss可以有效的保持输入和输出图像之间的颜色和纹理色调的一致性,如4.4节所示。

全变差损失:为了避免噪声和过度像素化,在[29]之后,我们引入了Total Variation (TV) Loss来帮助去除生成图像的粗糙纹理,得到更加空间连续和平滑的结果。它通过计算图像中相邻像素值的差异来鼓励图像由多个patch组成。让x[i;j]表示位于图像x第i行第j列的像素点,第n个尺度上的电视损失定义为:

3.3、实现细节

如前所述,所有的生成器共享相同的架构,都是全卷积网络。详细Φ由5块的形式3 x3 Conv-BatchNorm-LeakyReLU[14] 1步。Ψ由4块的形式3 x3 Conv-BatchNorm-Leaky ReLU。

对于每一个鉴别器,我们使用马尔可夫链的鉴别器(PatchGANs)[15]一样的11 x11 patch-sizeΦ保持相同的接受域生成器。训练设置我们使用Adam[21]对我们的网络进行训练,初始学习率为0:0005,并且在每1600次迭代后降低学习率。我们设置尺度因子s = 4=3,并为每个尺度训练4000次迭代。尺度N的数量设置为4。对于所有实验,我们设置权重参数为:

4、实验

我们将TuiGAN与两种类型的基线进行比较。第一种类型利用完整的训练数据而不进行子采样。我们选择CycleGAN[38]和DRIT[22]算法进行图像合成。第二种类型利用部分数据,甚至只利用一两个图像。我们选择以下基线:

4.1、Baselines

(1) OST[1],其中给出一幅源域图像和一组目标域图像;

(2) SinGAN[32]是一个锥体无条件生成模型,只训练目标域的一幅图像,从源域注入一幅图像到训练模型中进行图像平移。

(3) PhotoWCT[24],可以认为是一种特殊的图像-图像转换模型,将内容照片转换为参考照片的风格,同时保持真实感。

(4) FUNIT[27],目标是少发的UI2I,预训练需要大量数据。

(5) ArtStyle[6]是一种经典的艺术风格转换模式。对于以上所有的基线,我们使用他们的官方发布的代码来产生结果。

4.2、评估标准

(1)单幅图像Fr’echet Inception Distance (SIFID) [32]: SIFID捕捉两幅图像内部分布的差异,通过计算两幅图像深层特征的Fr’echet Inception Distance (FID)实现。SIFID得分越低,说明两幅图像的风格更相似。我们计算了平移图像与对应目标图像之间的分割。

(2)感知距离(PD) [17]: PD计算图像之间的感知距离。PD评分越低,说明两张图像的内容越相似。我们计算了平移图像和对应源图像之间的PD值。

(3)用户偏好(User Preference, UP):由于定性评价具有很强的主观性,所以我们对性能评价进行用户偏好研究。

4.3、结果

General UI2I Tasks:在[38]之后,我们首先对FacadeLabels、AppleOrange、HorseZebra和Map air Photo translation任务进行了常规实验,以验证我们算法的有效性。我们提出的图根和基线的可视化结果如图4所示。总的来说,TuiGAN生成的图片的翻译质量要优于OST、SinGAN、PhotoWCT和FUNIT。虽然SinGAN和PhotoWCT都会改变源图像的全局颜色,但它们不能将高级语义结构转换为我们的模型(例如FacadeLabels和HorseZebra)。虽然OST是用目标域的全部训练集进行训练的,并且在某些情况下转移了高级语义结构,但生成的结果包含许多明显的伪像,例如苹果和橘子上的不规则噪声。与在全数据集上训练的CycleGAN和DRIT相比,TuiGAN取得了与它们相当的结果。在某些情况下,TuiGAN在标签上的效果比这两种型号更好!外观,斑马!马任务,这进一步验证了我们的模型实际上可以仅用两个未配对的图像捕获域分布。SIFID、PD和UP的平均结果见表1。对于用户偏好研究,我们随机选择8张未配对的图片,并为每个常规UI2I任务生成8张翻译的图片。我们总共为每位受试者收集了32张翻译后的图像进行评估。我们将源图像、目标图像和我们的模型和另一种基线方法的两张转换后的图像分别以随机顺序显示在一个网页上。我们要求每个受试者在每一页选择翻译得更好的图像。我们最终收集了18名受试者的反馈,总共576张选票,每次比较得到96张选票。我们计算从一个方法中选择的百分比作为用户偏好(UP)得分。可以看出,TuiGAN在所有基线中SIFID得分最高,说明我们的模型成功地捕捉到了图像在目标域中的分布。此外,我们的模型在PD评分中排名第三,仅次于CycleGAN和PhotoWCT。从视觉结果中我们可以看出,PhotoWCT只能改变源图像的全局颜色,这也是它获得最佳PD评分的原因。在用户研究方面,我们可以看到,相对于OST、SinGAN、PhotoWCT和FUNIT,大多数用户更喜欢TuiGAN生成的翻译结果。与全数据训练的CycleGAN和DRIT相比,我们的模型在受试者中也获得了相似的投票结果。

图像风格迁移:我们演示了TuiGAN在图像风格转换上的有效性:art style transfer,即将图像转换为具有特定笔画或纹理的目标艺术风格,以及photorealism style transfer,即获得具有photorealism风格的照片。结果如图5所示。从图5的第一行可以看出,TuiGAN保留了建筑的轮廓,并以生动的笔触产生了风格化的效果,就像Van Goghs的绘画一样。相反,SinGAN不能生成清晰的程式化图像,PhotoWCT[24]只改变真实照片的颜色,而没有捕捉到显著的绘画图案。在第二行,我们将夜晚图像转换为逼真的白天图像,并保留了关键的语义信息。虽然SinGAN和ArtStyle产生了现实主义风格,但他们不能保持细节的边缘和结构。PhotoWCT的结果也没有我们的干净。总体而言,我们的模型在两种类型的图像风格转换上都取得了竞争的效果,而其他的方法通常只能针对某一特定的任务而不能实现另一种任务。

动物脸翻译:为了与基于动物面部数据集的少镜头模型FUNIT进行对比,我们进行了如图6所示的动物面部平移实验。我们还包括SinGAN和PhotoWCT进行比较。我们可以看到,与其他基线相比,我们的模型可以更好地将目标域图像中的皮毛颜色转移到源域图像中:SinGAN[32]产生的结果带有模糊的伪影和犬形模糊;PhotoWCT[24]虽然很好地保留了内容,但不能从目标图像中转移高级风格特征(例如点);FUNIT产生的结果与目标狗的外表不一致。

Painting-to-Image Translation:这个任务的重点是生成照片真实感图像与更多的细节基于大致相关的剪纸艺术描述在SinGAN[32]。我们使用SinGAN提供的两个样本进行比较。结果如图7所示。虽然两个测试图像共享相似的元素(例如,树和道路),但它们的风格却截然不同。因此,PhotoWCT和ArtStyle在两种翻译案例中都没有实现目标风格的转换。SinGAN也没有生成具体的细节,比如图7第一排道路上的树叶,也没有保持内容的准确性,比如图7第二排的山和云。相反,我们的方法保留了输入的关键组件,并在两种情况下生成了丰富的本地细节。

4.4、消融研究

为了研究不同训练损失、发电机结构和多尺度结构对烧蚀的影响,我们进行了几个基于马$Zebra任务的烧蚀研究。具体地说,

(1)固定N = 4,去除循环一致损失(TuiGAN w/o LCYC)、恒等损失(TuiGAN w/o LIDT)、总变异损失(TuiGAN w/o LTV)并比较差异;

(2)我们将N从0到4进行范围划分,以观察不同尺度的影响。当N = 0时,我们的模型大致可以看作是用两张未配对的图像训练的CycleGAN[38]。

(3)我们把注意力模型Ψ发电机,并结合IAB;Φn + 1”移往AB只需添加(简要表示TuiGAN w / o)。

Fig.8所示的定性结果。没有LIDT,生成的结果会出现不准确的颜色和纹理(例如,转移的斑马是绿色的)。在没有注意机制或LCYC的情况下,我们的模型不能保证物体形状的完整性(如被转移的马的缺腿)。没有LTV,我们的模型会产生带有人工制品的图像(例如,马周围的彩色斑点)。从N = 0到N = 3的结果要么包含较差的全局内容信息(例如马的布局),要么包含明显的工件(例如斑马条纹)。我们的全模型(TuiGAN N = 4)可以捕捉源图像的显著内容,传递目标图像显著的风格模式。我们通过评估不同变异TuiGAN的SIFID和PD评分来计算定量消融。如表2所示,我们的全模型仍然得到了最低的SIFID评分和最低的PD评分,这说明我们的TuiGAN在保持内容不变的情况下可以生成更真实、更风式化的输出。

5、结论

在本文中,我们提出了一种通用的条件生成模型TuiGAN,它只训练在两个未配对的图像上,用于图像到图像的翻译。我们的模型以由粗到细的方式设计,其中两个条件GANs金字塔从全局结构逐步细化到局部细节。此外,还引入了一个尺度感知生成器,以更好地结合两个尺度的结果。通过比较几个强基线,我们验证了TuiGAN在各种无监督图像到图像转换任务中的能力。烧蚀研究也表明,损失和网络规模的设计是合理的。我们的工作代表了进一步的可能性无监督学习与极其有限的数据。

承接Matlab、Python和C++的编程,机器学习、计算机视觉的理论实现及辅导,本科和硕士的均可,咸鱼交易,专业回答请走知乎,详谈请联系QQ号757160542,非诚勿扰。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • EnlightenGAN: Deep Light Enhancement without Paired Supervision

    基于深度学习的方法在图像恢复和增强方面取得了显著的成功,但在缺乏成对训练数据的情况下,它们是否仍然具有竞争力?作为一个例子,本文探讨了弱光图像增强问题,在实践中...

    于小勇
  • Robust Real-Time Face Detection

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

    于小勇
  • The Effects of Super-Resolution on Object Detection Performance in Satellite Imagery

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    于小勇
  • 去噪、去水印、超分辨率,这款不用学习的神经网络无所不能

    事情是这样的:研究人员们让一个深度卷积网络去学习复制被破坏的图像(例如加入噪点的图像),随后竟发现这个网络可以自行先学会如何重建图像。该研究的论文《Deep I...

    机器之心
  • 【虫二】的人工智能

    艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些...

    新智元
  • 基于深度学习的图像真实风格迁移

    本文详细讲解论文“ Deep Photo Style Transfer ”算法原理与实现和该模型优于之前相关模型的关键之处。

    蒋心为
  • 图像处理入门基础

    1、数字图像处理是指将图像信号转换成数字信号并利用计算机对其进行处理的过程,图像看成二维、三维或者更高维的信号。

    长风破浪
  • 基于SURF算法相似图像相对位置的寻找

    例如以下两个相似证件的模板,若以其中一幅图像为模板,并给出相应的位置,可以给出其他相似图像进行定位相对应的位置,如下图所示,其中除了标题和样式一样,内容确是不同...

    智能算法
  • 木星切片剪影:JunoCam 图像处理

    WolframChina
  • 干货 | 携程图像智能化建设之路

    携程技术

扫码关注云+社区

领取腾讯云代金券