前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework

One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework

作者头像
狼啸风云
发布2023-10-07 15:21:03
2380
发布2023-10-07 15:21:03
举报

摘要

 众所周知,人类可以从几个有限的图像样本中有效地学习和识别物体。然而,对于现有的主流深度神经网络来说,仅从少数图像中学习仍然是一个巨大的挑战。受人类思维中类比推理的启发,一种可行的策略是“翻译”丰富的源域的丰富图像,以用不足的图像数据丰富相关但不同的目标域。为了实现这一目标,我们提出了一种新的、有效的基于部分全局学习的多对抗性框架(MA),该框架实现了一次跨域图像到图像的翻译。具体而言,我们首先设计了一个部分全局对抗性训练方案,为特征提取提供了一种有效的方法,并防止鉴别器被过度拟合。然后,采用多对抗机制来增强图像到图像的翻译能力,以挖掘高级语义表示。此外,还提出了一种平衡对抗性损失函数,旨在平衡训练数据,稳定训练过程。大量实验表明,所提出的方法可以在两个极不平衡的图像域之间的各种数据集上获得令人印象深刻的结果,并且在一次图像到图像的转换上优于最先进的方法。

1、介绍

 得益于基于深度学习的方法的巨大成功,研究人员在计算机视觉领域取得了很大进展,如图像分类[1]-[7]、图像检索[8]-[16]和图像哈希[17]-[23]。通常,这些方法可以基于足够的数据来训练深度神经网络,从而获得合理的结果[3],[4]。然而,收集和标记这些数据既费时又乏味。在某些真实世界的场景中,由于图像样本的稀缺性,可能无法从目标域Y收集丰富的数据(在最坏的情况下,可能只有一个来自Y的图像)。尽管如此,我们可能有来自另一个源域X的冗余数据,其图像样本与目标域Y中的图像样本相关(如图1所示的照片和草图图像)。如果我们在保持语义匹配的同时基于多样性生成与域X的类似图像相对应的域Y的图像,这将是可行的解决方案。因此,有必要从有限的样本中获得有效的中间表示。

 以往的一次拍摄工作主要集中在一次拍摄图像识别。他们试图建立一个元学习框架,只需对一个样本进行微调,就可以很容易地适应新任务。然而,这些方法并不稳健,如果物体的姿态信息发生了变化,训练后的识别模型通常会给出完全不同的答案。为了提高单次视觉识别任务的鲁棒性,采用了一些传统的数据增强方法,包括随机翻转、旋转和裁剪操作,这些方法并没有提高单次样本的内容多样性,它们只实现了一些改进。在本文中,我们主要关注的是一次拍摄的不成对图像到图像的翻译。我们的目的是确定一个映射函数F,以仅使用一个图像样本将图像从源图像域X转换到目标图像域Y,如图1所示。使用图像翻译,即使给定有限的目标域样本,我们也可以通过翻译来自相关源域的图像来丰富目标域的训练样本。通过单次图像翻译进行数据扩充后,单次图像转换方法可以很容易地与以前的单次视觉任务相结合,并且通过将生成模型和单次识别模型相结合来提高识别精度具有很大的潜力。因此,一次拍摄图像的翻译是值得探索的。

 关于图像到图像的翻译领域,Gayts等人首次提出了一种“神经风格”算法,该算法使用卷积神经网络将一幅图像的内容与另一幅图像风格相结合。Johnson等人采用感知距离来测量不同图像之间的内容和风格相似性。然而,翻译结果被定义为没有高级语义匹配的图像绘画风格的翻译。由于生成对抗性网络(GANs)对视觉内容建模的强大能力,最近的几项研究工作致力于应用对抗性训练[33]来增强传统图像到图像翻译的鲁棒性和通用性。郭等人采用了自动嵌入的方法来实现高分辨率的图像合成。邱等人提出了一种新的对抗性语义分割架构来处理像素级的图像理解。这些方法可以通过使用来自目标域和源域的足够的训练数据来获得可接受的性能。如上所述,我们通常会遇到目标域没有足够的训练样本的情况。在某些情况下,我们只有一个样本,甚至在源域中没有对应的样本。

 关于一次拍摄不成对的跨域图像到图像转换的第一次尝试[43]侧重于一对多图像到图像的转换方案,该方案将仅有的一个目标样本转换到源域。这种同化过程可能很容易导致目标样本所附带的特定知识的损失。显然,这种方法不能应用于目标域的数据扩充。相反,我们的目标是多对一图像到图像的转换,即将不同的源样本转换到目标域。我们认为,由于对目标领域的探索极其有限,这更具挑战性。为了克服上述障碍,一个可行的解决方案是利用GANs的生成能力来实现多对一翻译。然而,直接应用GANs可能会面临两大挑战:1)不充分的目标数据和丰富的源数据的不平衡,导致鉴别器在目标领域的学习过程中过度拟合;以及2)缺乏提取高级语义表示的辨别能力,从而无法将语义信息从源域传递到目标图像域。

 直觉上,从人类头脑中的一个样本中学习通常依赖于部分到部分的类比推理来获得细粒度的信息。受这一过程的启发,在这项工作中,我们设计了一种基于零件的鉴别器程序,该程序能够使用来自目标域的有限信息来区分从翻译图像和真实图像中随机裁剪的局部零件。设计基于部分的鉴别器有两个好处:1)它有助于以更准确的方式捕捉目标样本的局部特征,2)它可以通过使用随机部分信息而不是整个图像来帮助鉴别器缓解过度拟合问题。此外,为了平衡目标数据和源数据的学习,我们设计了一种平衡的对抗性损失,该损失利用控制超参数来降低目标函数的收敛速度。值得注意的是,如果我们不使用这种平衡的对抗性损失,模型往往会受到琐碎的解决方案的影响,并导致过度拟合问题,即无论源域的输入是什么,都会生成与唯一一个目标样本极其相似的样本。此外,在下文[40]中,我们通过多个线程将一个原始鉴别器划分为一组弱学习者,这不仅有助于通过减少训练参数的数量来显著提高效率,还可以挖掘出仅有一个目标样本的更细粒度的语义细节。

 我们提出了一种新颖有效的一次拍摄图像到图像的翻译框架,将丰富的图像从源域翻译到只包含一个图像的另一个目标图像域。据我们所知,我们的工作是首次尝试在多对一环境中实现一次拍摄的不成对跨域图像到图像的翻译。我们建议通过部分全局学习利用多对抗机制来增强鉴别器表征细粒度语义的能力,并显著提高训练过程的效率。我们引入了一个平衡的对抗性损失函数,以减轻目标域和源域之间数据不平衡的影响。本文的其余部分组织如下。第二节简要介绍了相关工作,第三节阐述了拟议的方法。第四节介绍了在各种数据集上的广泛实验结果,然后是第五节中的结论。

2、相关工作

A、图像到图像翻译

由于条件GAN[44]的成功,开发了许多流行的图像到图像的翻译方法,如Pix2pix和Pix2pixHD。他们可以通过配对图像进行训练来实现高分辨率和精确的图像合成。然而,配对训练数据并不总是可用的。为了克服这一不足,提出了许多不成对的图像域翻译,包括CycleGAN、DualGAN、DiscoGAN、UNIT、MUNIT、DRIT等。这些方法可以基于未配对的图像将图像从一个域转换到另一个域。CycleGAN采用循环一致性损失来约束目标图像的重建。MUNIT采用了无监督的多模式结构来翻译风格和内容,以重建目标图像。并发DRIT旨在生成具有不同输出的图像,提出了一个解纠缠的表示框架。GANimorph结合形状变形和扩张卷积进行跨物种翻译。此外,Twin GAN使用了一种逐渐增长的跳跃连接编码器生成器结构来翻译人类动漫角色。然而,这些工作中的大多数主要使用来自源域和目标域的冗余图像进行实验,当给出有限的图像时,这可能会令人不满意。

B、One-Shot图像翻译

 李飞飞(Fei Fei Li)和埃里克·米勒(Erik Miller)首次讨论了一次性学习,旨在从一个或几个训练样本中学习有关对象类别的信息。大多数已发表的一次性学习方法侧重于如何从几个样本(一个样本)中识别物体。与上述一次性物体识别方法不同,一次性图像翻译(OST)旨在翻译两个域之间的图像,其中一个域仅包括一个或几个图像。Benaim等人[43]首先讨论了这一概念,他旨在用域y中的单个图像y和域X中的一组图像生成X中y的类似物。为了确定映射函数,他们共享了一个变分自动编码器[52]的一些特定层,以在域转换之间添加强大的约束。与他们的任务不同,我们的目标是执行一项更具挑战性的任务,即发现一个语义映射函数来将一组图像从X翻译到Y,即我们使用OST方法进行反向翻译[43]。在我们的案例中,我们的目标是利用域之间的语义链接,挖掘X和Y之间的感知相似性,并给出了一个Y的样本图像。目前,SinGAN[53]被开发为仅用一个自然图像合成看似合理的多尺度补丁图像。它旨在处理来自一次性目标样本的重复模式特征,并且在合成阶段不引入源内容信息。不同的是,我们的目标是通过图像平移在一次拍摄设置下实现目标域的数据增强。

C、多对抗训练

 最近,许多方法利用多对抗性训练机制来提高生成性能,这些机制在功能上集成了不同的鉴别器。GMAN[54]首次采用了多个鉴别器,用于快速稳定收敛的高质量图像生成。多鉴别器CycleGAN是CycleGAN的一个扩展,被提出用于增强具有多个鉴别器架构的语音域自适应。MD-GAN被提议在分布式数据集上使用具有多个鉴别器的GAN。大多数研究都使用了多个鉴别器来为生成器提供更好的指导。Pix2pixHD和MUNIT分别采用多尺度鉴别器结构进行高分辨率配对和多模式非配对图像到图像的翻译。杨等人还应用多任务学习来探索内部相关性。最近,GAN-MBD提出了一种多分支鉴别器,以减少鉴别器的参数并增强物种之间的翻译。在多对抗性训练的基础上,图像生成和翻译质量得到了全面的提高。出于我们的目的,在给定有限图像的情况下,我们的目标是使用多对抗性训练机制来改进图像到图像的翻译过程,并增加在不同领域之间建立高级语义链接的可能性。

3、提出的方法

 在本节中,我们详细介绍了所提出的多对一图像到图像翻译的方法。

A、部分全局鉴别器

 如图3所示,假设我们想用冗余的“猫”样本和只有一个“狗”样本将图像从源“猫”域翻译到目标“狗”域,类比推理的直观原理是1)保留原始图像的全局布局/姿态,以及2)对眼睛、耳朵和鼻子等细节部分进行语义匹配。Iizuka等人[58]提出了一种全局-局部对抗性架构,以有效地结合全局和局部信息来提高图像修复性能。特别是,提出了一个局部上下文鉴别器来确保局部一致性,这确保了该局部鉴别器的输入是以完成区域为中心的小区域。受局部和全局信息强大建模能力的启发,我们设计了一种部分全局对抗性架构,以增加源域的多样性,并改进一次性图像到图像的翻译过程。具体而言,我们的零件鉴别器由从生成的图像和真实图像中裁剪的随机零件组成,如图2所示。值得注意的是,我们的部分鉴别器仅针对目标域中的生成器F设计。此外,我们只提供从整个真实/虚假图像中随机裁剪的一小部分,以增强模型的鲁棒性并提高发现目标表示的能力。通过这种方法,可以通过随机裁剪获得更细粒度的零件样本,因此我们的模型可以从局部上下文零件中捕获更详细的信息。它还可以缓解一次性设置时的过度拟合问题。为了确保生成的图像和唯一一个目标样本图像之间的全局一致性和语义匹配,我们结合了一个通用的全局鉴别器来处理整个图像。请注意,我们将部分鉴别器和全局鉴别器视为对学习过程的同等贡献。损失函数可以描述为:

 这里,

D_p
D_p

D_g
D_g

分别表示部分鉴别器和全局鉴别器,

分别表示从生成的图像和真实图像中裁剪的随机部分区域。对于全局鉴别器和部分鉴别器,我们采用PatchGAN架构。我们综合考虑了具有不同类型图像(例如,面部图像、自然场景)的不同任务可能会影响我们的补丁对抗性学习的性能,尽管我们试图将其作为通用解决方案应用于更多的情况。然而,作为一次性学习的基本挑战,缺乏足够的知识使得目前几乎所有最先进的图像到图像翻译方法都无法推广到所有可能的情况。我们的方法受益于部分全局补丁学习,以发现多对一图像到图像翻译任务的语义映射。

B、描绘细粒度语义

 为了表征图像中的详细语义,我们建议使用“分而治之”策略,即设计不同的鉴别器线程来决定当前图像和部分区域是真实的还是合成的。方法可以描述为:

 其中N表示公共鉴别器的线程号。具体而言,我们通过通道将整个鉴别器分解为多个较小的线程,从而可以降低架构的复杂性,即鉴别器的参数。我们将鉴别器的平均对抗性损失提供给更新生成器,并且鉴别器中的每个线程都是独立优化的。如[40]所述,鉴别器的每个线程都可以自动学习一个语义子任务。有了这种隐含的语义划分,我们的模型可以有更强的能力来挖掘源域和目标域之间的内在联系。如图6所示,4,为了进行明确的阐述,我们训练了4个线程的鉴别器,这些鉴别器具有来自源域和唯一一个目标样本的丰富样本,并可视化唯一一个目的样本的特征图输出。模型的每个线程可以负责仅一个目标样本的不同语义表示。第一条线索关注眼睛和鼻子,而第二条线索关注皮毛信息。第三个线程捕获小的详细信息,第四个线程观察边缘信息。需要注意的是,我们没有在鉴别器的线程之间提供明确的附加约束,并且在基于训练样本的整个训练过程中学习隐含的语义划分。即使目标鉴别器的多个分支之间没有显式损失,多个分支的平均损失也被馈送到生成器中,并且每个分支都构成了与生成器的对抗性训练,因此不同线程之间存在隐式连接。

C、源与目标之间的平衡训练 考虑到在一种与多种情况下目标域和源域之间可能存在的极端不平衡,如果我们在目标域和来源域的鉴别器之间保持相同的训练速度,则目标域的鉴别器可能很容易被过度拟合。为了缓解这个问题,我们开发了一种平衡的对抗性损失,以减缓向单次拍摄图像的收敛。在这里,我们设计了一种策略,通过使用超参数α来控制两个域鉴别器的收敛速度,这可以同时提高源鉴别器和目标鉴别器。对于映射函数F:X→ Y和G:Y→ X、 平衡的对抗性损失定义为:

 其中

D_X
D_X

D_Y
D_Y

分别表示源域和目标域的鉴别器。我们已经在我们的框架中探索了这个超参数的有效性,并在第IV-E节中使用不同的

\alpha
\alpha

值进行了各种实验。 

 4、实验

A.数据集

我们通过在六个不同的数据集上与最先进的方法进行比较来评估我们的方法:

漫画[59]包括200个成对的漫画图像,使真实图像的面部特征变形。IIIT-CFW[60]包含1000幅真实图像和8928张世界著名人物的注释卡通脸,其中包括100位不同职业的公众人物。

CelebA+Portrait[38]是从CelebA[61]和Wikiart派生的组合数据集。具体而言,从CelebA中选择6453幅图像作为源域,从Wikiart中选择1814幅图像作为目标域。

Cat2dog是一个裁剪图像数据集,共包括871张猫图像和1364张狗图像。我们从DRIT[38]继承了这个数据集,并遵循相同的数据分割进行训练和测试。

Day2night[62]包含100个成对的昼夜图像,其中1+90(一个对多个)图像用于训练。

PHOTO-SKETCH[62],[63]是一个照片到草图的翻译数据集,包含成对的面部照片和草图图像。

B、实现细节

 我们主要继承了CycleGAN[34]的架构。我们用部分全局鉴别器扩展了鉴别器的层,以捕获高级语义表示,并在我们的模型中采用了多对抗性训练机制。部分鉴别器比全局鉴别器拥有更少的层。受[39]中提出的Pix2pix的PatchGAN的启发,我们导出了全局鉴别器和部分鉴别器。但我们使用不同的5层全局鉴别器和4层部分鉴别器架构,分别产生32*32个输出和8*8个输出。对于鉴别器的每一层,包括具有核大小4和步长2的卷积层,并且我们在Conv层之后添加一个斜率为0.02的Leaky ReLU。对于生成器架构,我们采用三个Conv InstanceNorm ReLU块来实现输入图像的下采样,内核大小设置为3,步长为2。对于瓶颈,应用残差块来堆叠内容信息。执行去卷积InstanceNorm ReLU块以生成相同大小的图像输出。最后,应用Tanh活动函数来获得赋范输出。为了提高模型的通用性和稳健性,我们使用了一些常见的数据增强方法,包括随机流动、轻微旋转和中心裁剪。方程中提到的超参数α。在我们所有的实验中,5被设置为0.1。我们使用Adam[64]来优化我们的模型,并将学习率设置为0.0002。

C、评估标准

为了评估不同方法的有效性,我们使用以下标准来衡量翻译质量: Fréchet起始距离(FID)[65]计算生成的样本分布和真实数据分布之间的相似性。该方法是一种一致且稳健的方法,用于评估生成的图像[66]、[67],并且可以通过以下方式进行计算:

其中

分别是来自数据分布和模型分布的样本嵌入的均值和协方差。较低的FID指数意味着生成的图像和目标图像之间的分布差异较小,并且这表示生成的图像质量较高。在我们的一次未配对图像到图像的翻译任务中,我们可以通过计算这些度量来评估图像生成质量。 习得感知图像补丁相似性(LPIPS)[68]计算两个图像之间的感知相似性。较低的LPIPS意味着两个图像具有更多的感知相似性。考虑到两个图像域,我们可以计算LPIPS距离来评估感知相似性。 结构相似性(SSIM)[69]是衡量两幅图像之间相似性的传统度量。SSIM越高,所生成的图像和真实图像之间的结构相似性越大。

D.与最佳方法的比较 我们将我们的方法与最先进的图像到图像翻译方法进行了比较:CycleGAN[34]、MUNIT[36]和DRIT[38]。比较是在两种设置下进行的:一对多和多对多。对于一对多的情况,我们只使用来自目标域的一个图像和来自源域的许多图像。对于多对多的情况,我们使用来自这两个域的许多图像。我们还将我们的方法与OST[43]方法和快速神经风格[32]方法进行了一种与多种情况的比较。 1) 场景变化的结果:我们首先在第2天的第[62]数据集上执行场景变化任务。图5显示了翻译后的结果。可以看出,我们的方法从白天的输入中生成令人满意的夜间图像,同时仅使用一个夜间图像作为一对多情况下的训练样本,并且我们的方法可以保留输入图像的感知内容。相反,DRIT生成具有多个脏色块的图像,并且无法生成合理的对象。MUNIT几乎只适用于一个训练样本,并且无论输入看起来如何,生成的结果都与一次性样本相似。DRIT和MUNIT都未能在一对多的情况下实现合理的翻译。快速神经风格的方法只实现了颜色和织物的翻译,产生了不自然的合成图像。为了进行定量比较,我们计算了该数据集中提供的输出和配对地面实况图像之间的定量结果(FID、LPIPS和SSIM),结果如表I所示。在所有方法中,对于一种与多种情况,我们的方法具有最低的FID和最高的SSIM值,这表明图像翻译性能更好,保存输入样本的结构信息的能力更强。

2) 关于照片到漫画的结果:在这一部分中,我们评估了一项更具挑战性的任务,即实现照片到漫画翻译的方法。Gats等人[31]和Jonhson等人[32]使用一个风格图像和一组输入图像执行艺术家风格变换。我们在四个照片到漫画的数据集上进行了实验,即caricature[59]、PHOTOSETCH[63]、[70]、IIIT-CFW[60]和CelebA+Portrait[38]。这项任务不仅需要讽刺夸张的照片,还需要艺术家风格的转移。我们在两种情况下将我们的方法与其他方法进行比较:一对多和多对多。

图6报告了Caricature数据集上使用不同方法的翻译结果。一对多任务仅使用一个随机选择的漫画图像作为目标样本和160张照片,而多对多任务使用160张照片图像和160张漫画图像。其余40对用于测试。对于一对多的情况,我们的方法不仅捕捉了漫画风格,还保留了输入的姿势、布局和身份信息。从图6的第二列可以看出,我们的方法在适当的部分生成夸张的胡子。对于一对多的情况,CycleGAN仅为所有生成的样本在同一零件区域上生成胡子伪影。DRIT生成具有模糊边界和一些伪影的图像,而MUNIT无法合成令人满意的结果。OST和快速神经风格方法只根据一个目标样本获得彩色输出,而不需要漫画翻译。由于我们的图像到图像翻译的一次性设置只提供了一个领域的一张图像用于训练,因此模型学习领域知识和常识是非常具有挑战性的(女性没有胡子),因此我们的方法生成的所有图像都在合理的位置上有胡子。在只给出一张漫画图像的情况下,我们的模型捕捉到了胡子的表现(所有人都有胡子)和不同部位之间的关系(胡子应该在鼻子下面,嘴上面)。这种情况也发生在我们的人类身上,考虑到婴儿只见过有胡子的人(由一次性目标样本描述),婴儿认为人们应该有胡子是正常的。因此,我们在图6中的输出是有意义的。

表II显示了所有评估方法的生成图像和地面实况图像之间的FID、LPIPS和SSIM值。与其他方法相比,我们的方法实现了最低的LPIPS距离和最高的SSIM分数。最低的LPIPS表示生成的图像和真实图像之间较小的感知距离。与在许多情况下使用所有训练样本训练的方法相比,我们的方法甚至可以获得更高的SSIM分数。 图7说明了PHOTO-SKETCH[63],[70]数据集上不同方法的翻译结果,该数据集具有一致的草图风格。表三显示了不同方法的定量性能。我们分别为源域和目标域使用了995张照片和一张随机选择的草图图像。其余199对照片-草图图像用于测试。如图所示,当使用所有995个训练配对图像时,所有方法都可以获得合理的结果。尽管如此,当只供给一个目标样本时,大多数样本的性能都很差。相反,我们的方法获得了最低的LPIPS、最低的FID和最高的SSIM性能,可以很好地保留源样本的姿态/布局信息,并生成类似于唯一一种目标风格的生动草图。 此外,我们在IIIT-CFW[60]数据集上进行了实验。我们从漫画领域随机选择一幅图像作为训练目标,并选择800幅照片图像作为训练源。对于多对多的情况,我们使用了所有的漫画图像作为目标。其余200张照片用于测试。由于IIIT-CFW不提供真实的卡通图像对,我们只报告了合成图像和真实图像之间的FID性能,如表IV所示。在一种与多种情况下,我们的方法在所有评估方法中取得了最好的结果。如图6所示,8,与仅执行纺织品转换的一对多下的其他方法相比,我们的方法可以更好地表征语义方面(例如,眼睛和眉毛),保留源输入的布局/姿势信息,以及继承仅一个目标样本的风格。

 我们还使用CelebA+portrait[38]数据集进行肖像翻译。我们遵循[38]中的训练/测试集。由于源照片和肖像图像没有配对,我们只计算FID性能。我们在表IV中报告了定量比较结果,从中我们可以观察到,我们提出的方法优于其他设置,我们的工作面临着更多的挑战,因此在图10和图11中的某些情况下(例如,生成各种背景)可能无法获得令人满意的结果。

E.消融研究

为了研究我们方法中不同组件的有效性,我们设计了几个额外的消融研究实验。表VI显示了我们对cat方法的不同变体的FID值↔ 狗的任务。可以看出,通过将GAN仅与GAN+MA进行比较,性能显著下降,这表明当使用多对抗性鉴别器时,该模型可以提高捕获细粒度语义信息的能力。图12(a)也给出了类似结论的可视化结果。图3展示了在使用额外的部分鉴别器的同时具有局部语义匹配的图像翻译结果。我们注意到,翻译后的图像与它们的输入有相应的语义链接(主要是姿势和布局)。

全局鉴别器和局部鉴别器的有效性如图所示。12(b)和表VI。如果我们不使用全局鉴别剂,很容易发现翻译的图像在没有全局约束的情况下具有非常差的全局一致性。当我们只使用全局鉴别器时,生成的图像看起来与所有生成图像中相同区域中的相同伪影相似。当使用部分鉴别器时,可以提高性能,这得益于这样一个事实,即部分鉴别者可以通过强制生成器关注更细粒度的语义细节来帮助缓解过度拟合。 此外,我们还研究了零件鉴别器的零件尺寸和超参数α的影响。表VII显示了PHOTO-SKETCH数据集上的实验结果,图12(c)显示了使用不同零件尺寸的视觉结果。图12(d)显示了使用不同α值的一些示例。当我们选择零件尺寸为128×128和α=0.1时,我们获得了最佳性能。对于零件学习,我们还检查了不同的操作以获得零件区域。对于照片到漫画图像的翻译,人脸解析引导裁剪也可以应用。人脸解析引导裁剪可以使零件鉴别器更容易地学习语义级特征表示。但使用人脸解析引导裁剪也有一些缺点:一方面,在一次性设置下很难获得正确的人脸解析标签;另一方面,人脸解析引导裁剪仅限于面对面翻译。相比之下,随机裁剪策略可以应用于各种翻译任务。我们还提供了使用随机裁剪和人脸解析引导裁剪进行一张照片到漫画翻译的比较,定量比较如表VIII所示。我们的随机裁剪策略在探索零件之间可能的对应关系方面取得了更好的翻译性能。

 我们还实现了共享翻译和重建函数生成器的主干的实验。通过共享两个生成器的参数,我们可以在源域和目标域之间构成一个共享的潜在空间。如表IX所示,领域不可知表示可以提高照片到漫画设置下的翻译性能。然而,当两个领域在猫到狗设置下具有较大的语义距离时,共享参数会损害翻译能力并导致更差的结果。 

F.限制和故障情况

我们在各种一次拍摄的图像到图像的翻译任务上评估了我们的方法,但结果并不总是令人满意。我们分析了造成这种现象的根本原因是我们处理“未知”对象的方法的局限性。在翻译过程中,如果源对象和目标对象不相关,那么翻译就会变得困难。例如,在猫身上↔ dog任务,虽然我们可以完成主要对象从猫到狗的转换,但源图像的背景无法保留。一个可能的原因是“猫”和“狗”在语义上彼此相似,而背景不一定与“狗”相关,从而导致输出图像中背景的“丰富”。我们在城市景观[71]和夏季展示了更多关于疾病病例的实验结果→ 冬天。图13(a)显示了Cityscapes数据集的失败结果。当场景复杂,并且在该语义生成任务中,来自目标域的唯一一个图像不能覆盖目标域中的所有语义信息时。在图13(b)中,我们在使用一幅描绘冬季场景的图像的同时进行夏季到冬季的翻译。可以观察到,翻译未能在生成的图像中保留“湖”,“云”被错误地翻译为“山”。这些现象表明,如果从未在目标域中观察到物体(例如“云”、“湖”),我们的方法往往会失败。

5、结论 在本文中,我们提出了一种有效的一次跨域图像到图像转换方法,以在只有一张图像的情况下将大量样本从源域转换到另一个目标域。此外,我们还包含了部分全局学习架构,以提取更细粒度的信息。最后但同样重要的是,我们提出了一种平衡的对抗性损失,以稳定对抗性训练过程并避免过度适应。我们在多个数据集上验证了我们的方法,并证明了即使目标域仅包含一个训练样本,我们的模型也可以利用源域的多样性信息,为目标域生成各种图像。作为在多对一环境中实现一次拍摄不成对跨域图像到图像翻译的第一次尝试之一,我们的工作面临着更多的挑战,因此在某些情况下可能无法获得令人满意的结果(例如,生成各种背景)。我们一直试图在源域和目标域之间共享更多的先验知识(例如,背景、位置),这实际上有助于实现更有希望和合理的结果(例如,生成各种背景)。此外,在翻译过程中使用注意力图来区分背景和前景也可能有帮助。我们将此作为我们未来的工作。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档