CoMoGAN: continuous model-guided image-to-image translation

狼啸风云

发布于 2023-10-17 16:54:04

3270

摘要

CoMoGAN是一个依赖于函数流形上目标数据的无监督重组的连续GAN。为此，我们引入了一种新的函数实例归一化层和残差机制，它们将图像内容从目标流形上的位置中分离出来。我们依靠原始的物理模型来指导训练，同时允许私有的模型/翻译功能。CoMoGAN可以与任何GAN主干一起使用，并允许新类型的图像翻译，例如循环图像翻译（如延时生成）或分离线性翻译。在所有数据集上，它都优于文献。

1、介绍

图像到图像（i2i）翻译网络学习域之间的翻译，将从数据集学习的目标外观应用于源图像的上下文。这实现了神经照片编辑等应用，以及面向机器人的任务，如一天中的时间或天气选择、领域自适应等。尽管在非配对、多目标或连续i2i方面取得了令人印象深刻的进步，但仍存在重要的局限性。具体来说，为了学习复杂的连续翻译，现有作品需要对中间领域点进行监督。此外，它们假设域流形的分段线性或整体线性。这样的约束很难满足循环平移（例如白天）或连续平移（例如雾、雨）。

相反，我们引入了CoMoGAN，这是第一个使用无监督目标数据学习非线性连续翻译的i2i框架。它使用简单的物理启发模型进行训练，同时通过域特征的连续解纠缠来放松模型依赖性。一个有趣的结果属性是CoMoGAN发现了目标数据的流形排序，无监督。为了进行评估，我们提出了新的翻译任务，如图1所示。要么是循环的/线性的，要么是附加的/脱离的。我们的贡献是：

•用于连续i2i的新型模型引导设置，

•CoMoGAN：一个无监督的框架，用于使用简单的模型指导来解开生成图像中不断演变的特征，

•一个新的功能实例规范化（FIN）层，

•根据最近的基线和新任务对CoMoGAN的评估，在所有方面都优于文献。

2、相关工作

与早期的i2i不同，[75，70]中的开创性工作实现了不成对的源/目标训练。在此基础上，出现了多模态或多目标i2i。额外的监督也提高了性能。

模型引导翻译

可以利用模型来改进i2i。在[61]中，他们将基于物理的渲染[15]与GANs相结合，以实现可控的雨天翻译。类似地，[46]通过在训练中注射模型来解开闭塞。所有这些都依赖于模型集成，而不是指导。模型可以以输出空间条件[49]、损失函数[25]或特定数据扩充[68]的形式影响许多训练方面。它们已被广泛用于图像恢复[43，28，69]，但很少用于GAN图像合成。尽管如此，[23]使用简单的模型来学习基本的图像变换（旋转、亮度等）。

纠缠的表示

解纠缠通常用于通过分离图像内容和样式来获得对生成的控制。其他人的目标是控制输出图像的粒度[56]或特定特征，如模糊或视点。一些人利用解纠缠来实现少镜头泛化能力。领域特征解纠缠也统一了跨领域的表示。虽然有些人根本不使用标签，但他们都没有学习翻译的顺序性。

连续的图像翻译

连续i2i的一种常见做法是通过加权鉴别器、使用中间状态的损失或混合解纠缠样式表示来使用中间域。属性向量插值能够连续控制几个特征。其他人则通过发现的路径不断探索潜在空间。最后，提出了特征[63]或核[64]插值。尽管如此，他们还是假设线性插值——并不总是有效的（例如，从白天到晚上包括黄昏）。GANimation[48]相反，使用非线性插值，但需要中间域标签。

3、CoMoGAN

不是点对点映射

，CoMoGAN学习由

控制的连续域翻译，即

。训练使用源数据（固定

）和无监督目标数据（未知

）。它重塑了受天真物理学启发的模型（如色调映射、模糊等）指导的数据流形。我们不是模仿，而是放松模型，让网络通过我们对输出、

和风格的解开来发现私人图像特征。

图2是我们的架构不可知提议的概述。它依赖于三个关键组成部分。我们首先介绍了函数实例规范化层（第3.1节），它可以实现

-流形的重塑。其次，我们的解纠缠残差块（第3.2节）负责输入数据中的

解纠缠。最后，我们详细介绍了

-Net，一个成对的

回归网络（第3.3节），它增强了流形距离的一致性。

模型指导

我们用简单的非神经模型

来指导学习，

是源图像。因此，根据可以通过粗略引导发现目标流形的直觉：夜晚类似于黑暗的白天，雾看起来像模糊的灰色清晰的图像，等等。我们脱离了复杂物理引导的需要，因为我们将共享和私有特征与模型/转译区分开来，从而能够发现复杂的非建模特征（例如夜间光源）。模型在第4.1节和支持中进行了描述。

3.1、函数化的示例一致性

为了利用我们的模型引导，它本质上是连续的，我们必须允许我们的网络对

连续性进行编码。为此，我们在先前的实例规范化（IN）的基础上进行构建，该规范化允许携带与样式相关的信息。它为输入

写入，

其中，

和

是输入特征统计，

和

学习了仿射变换的参数。作为扩展，我们提出了功能实例规范化（FIN）

其中，我们学习

和

变换的分布，而不是学习一个唯一的

变换参数值。直觉是根据变换的演变来塑造

-流形。与其他人相比，这使我们能够更好地解释所学的流形。根据

的性质，我们可以对FIN层进行相应的编码。在这项工作中，我们研究了线性和循环编码。通常会遇到线性编码，并假定以线性方式重新组织特征。例如，考虑到不利的天气现象，恶劣的条件（如大雾）总是位于轻度条件（如轻雾）之后。我们将线性FIN参数建模为

其中

是层可学习的参数。

相反，一些翻译路径循环回到源，就像白天一样，从白天到黄昏7，白天是循环的→ 第7晚→ 黎明又到了。在这种情况下，我们使用参数对循环FIN层进行编码

3.2、解纠缠残差块

严格模型依赖性的缺陷在于，GAN只会学习模仿模型。为了防止这种情况，我们必须允许目标域

和模型域

分别具有共享的建模特征

以及私有的非建模特征

和

。这写

我们用我们的解纠缠残差块（DRB，如图所示）在任一域中启用私有特征。2）其目标是提取给定

的解纠缠表示。DRB由残差块组成，残差块将编码器特征图

映射到输出图像的解纠缠表示。使

，我们有

DRB的工作原理如下。如图2所示，输入表示

由残差块处理，每个残差块提取与先前引入的原子特征相关的特征，如

，每个残差一个。特别地，用于

提取的残差块使用我们的FIN层进行归一化，以对连续特征进行编码。隐藏的潜在表示

和

是从解纠缠特征和

的总和中获得的，以简化梯度传播，如[16]所示。在公式中，

直观地说，为了优化，我们需要来自真实数据相似性和模拟模型输出的反馈。由于使用了不成对的图像，第一种方法必须依赖于对抗性训练，但我们可以在成对建模的

上强制进行重建。假设LSGAN[38]训练和鉴别器D，我们得到

在生成器更新步骤期间，

和

的最小化使得

和

能够解纠缠。

3.3、成对的回归网络(

-Net)

DRB在特征级别上强制解纠缠和流形形状，但它需要特别的训练策略来实际解纠缠真实图像的连续特征，并且不会陷入容易的陷阱，例如网络只利用

进行目标翻译而忽略

。因此，我们引入了一种基于相似性的训练策略，该策略迫使网络既利用提取的连续信息，又遵循模型指导。假设一个输入图像

，映射到

。如图2所示，我们对

和

进行随机采样，并将M（.）应用于

，得到偶

。我们使用CNN（φ-Net）进行领域相似性发现。它将一对图像作为输入，并回归它们的

差，例如

我们通过增强真实和建模目标域图像之间的一致性，在端到端设置中联合优化

-Net和生成器（G）参数。在公式中，

迫使

根据物理模型的反馈来组织流形，最终导致生成的

和

映射到

-Net发现的流形上的同一

。这样，网络可以识别出，尽管模型输出和学习的翻译之间存在差异，但图像遵循一些相似性标准，从而在物理模型的指导下组织潜在空间。

仅利用建模数据，因此用于避免训练崩溃。对于线性FIN，我们在

和

上训练，尽管对于循环FIN，通过评估φ的sin/cos投影上的每个损失来增加稳定性。

3.4、训练策略

CoMoGAN是端到端可训练的，只需在编码器和解码器之间添加DRB，就可以与任何i2i框架一起使用，但我们会损失。生成器的最终目标取决于源和目标是否分离，即

（可视化见图1）。如果已分离，则生成器更新步骤写入

对于附加的源/目标，我们强制执行源（

）标识：

使用任意一种

定义，有时与正则化成对损失结合使用，以简化训练（参见supp）。使用来自目标的真实数据

，鉴别器最小化

循环一致性

除了

，许多网络执行

以保持循环一致性的上下文。为了处理后者，我们在每个编码器/解码器之间插入一个共享的DRB，以从多个来源中获益。如图3所示。我们还使用了另一个无监督网络，称为

，它在目标数据集上回归

。从上图（左）来看，因为

是在

变换中中注入的，我们通过将

添加到生成器目标来强制所有

值的正确扩展，

。

4、实验

我们展示了CoMoGAN在新的连续图像到图像翻译任务

上的效率，其中我们认为源数据位于

-流形的不动点（

）和未知的

目标数据上。潜在的优化挑战是同时学习

流形和连续图像翻译。由于连续模型引导翻译是新的，我们首先描述了通过利用最近的数据集获得的三个新颖的翻译任务（第4.1节）。每项任务都包含其自身的挑战，如线性/循环目标流形、附加/分离流形（即

或

）和单模态/多模态。具体而言，我们使用骨干MUNIT（多模）或CycleGAN（单模）进行训练，并分别铸造我们的替代品CoMo MUNIT和CoMo CycleGAN。我们从GAN度量和代理任务中评估了歧管组织（第4.2节）和翻译质量（第4.3节）。连续平移（第4.4节）单独评估，我们以消融研究（第4.5节）结束。我们主要使用默认骨干超参数进行训练，更多细节在补充中。

4.1、翻译任务

Day→Timelapse.

使用最近的Waymo Open数据集，我们将一天的复杂任务框定为任何时间，从而学习通过白天/黄昏/夜晚/黎明的时间推移。Waymo图像标签仅用于将清晰的图像分割为源{天}和目标{黄昏/黎明，夜晚}，分别获得105307/28165和27272/7682图像的序列/val集。我们为多模态训练CoMo MUNIT。为了尊重时间的循环性质，我们利用循环FIN（等式4）编码

，它映射到太阳高度

。仅用于评估，我们从带有图像GPS位置和时间戳的天文模型[1]中获得地面实况高程。为了提供指导，我们利用了一个简单的昼夜色调映射(Ω) 使用Hosek辐射模型（HSK）进行插值以解释颜色的逐渐损失，并添加不对称色调校正（corr）以解释温度变化——即在模拟太阳高度，黄昏呈现红色，黎明呈现紫色。完整的模型在补充中。它写道

iPhone→DSLR

我们从CycleGAN那里得到启发，将他们的初始任务调整为连续设置，学习将具有大景深的iPhone图像映射到具有浅景深的单反图像。我们还使用iphone2dslr数据集，分为源1182/569和目标3325/480。我们用CoMo CycleGAN训练这个任务进行比较，并使用线性FIN（等式3），其中

编码级数。

为了指导，我们通过卷积（*）核大小映射到

的高斯（G）来渲染模糊。这就是

在这里，我们提出了一个分离的源/目标任务，在这个任务中，除了源是合成的，目标是真实的数据之外，我们从清晰到模糊地学习。对于来源，我们利用合成Synthia数据集的春季序列，分为3497/959张图像。作为目标，我们将原始城市景观[10]和4个最大能见度距离为｛750米、350米、150米、75米｝的雾天城市景观[15]混合在一起。在目标中，5个城市景观版本中的每一个都有2975/500张图像。我们在这里训练具有线性FIN层的CoMo MUNIT（等式3），并将最大可见性编码为

，即可见性

。作为指导，我们简单地利用了[15]的雾模型。出于篇幅考虑，补充部分提供了模型细节、样本输出和模型实验。

4.2、流形组织

我们在第7天使用CoMo MUNIT评估了无监督流形发现的质量→ 时间流逝。图4显示了源日图像（中心）和我们对均匀采样

（中间圆圈）的延时平移。除了吸引人的翻译之外，请注意网络发现的重要特征，如正面太阳（当太阳接近地平线时）、日落/日出、物质反射（夜间）和稳定的夜间外观。所有这些特征都不在模型M（.）中，尽管存在于目标图像（外圈）中。这就提倡网络去纠缠模式特征和翻译特征。还要注意，图4中的顶部翻译准确地类似于源，评估目标是否附着在源上。从数量上讲，我们通过在真实Waymo验证集上用φ-NetA-CNN（参见第3.4节）回归

来测量流形精度，并计算地面实况高程的误差。我们得到19.8的平均误差◦ （标准8.56◦) 在无人监督和4.05◦ （标准4.20◦) 如果受到监督。即使在无监督的情况下，我们的流形发现也是可以接受的，并为无监督的翻译开辟了道路，在这种情况下，

地面真相是不切实际的（例如雨、雪）。

混乱的维度

由于MUNIT在设计上是多模态的，因此评估CoMo MUNIT将

与MUNIT的风格维度正确地分开是很重要的。我们通过采样

和样式来实现这一点。从图5中可以看出，后者在不同的轴上正确地进化，这是预期的，因为

是由模型引导的特征调节的。同样，使用

-NetA，我们回归了100个固定φ翻译的φ值，每个翻译有100种不同的风格，得到1.06◦

——沿样式维度的方差。这证明了

和型流形的正交性。

4.3、翻译质量

我们测量了MUNIT和CycleGAN骨干的所有翻译任务的质量和可变性，如表1所示。我们总是表现得更好或不相上下。在表中，IS[54]评估了所有数据集的图像质量和多样性，CIS评估了多模式翻译，LPIPS仅评估了绝对多样性。我们推测我们的性能结果是我们拥有更高程度的控制，因为我们以解纠缠的方式控制

特征（即极为增加的可变性），而纠缠的主干倾向于最容易的平移。用于IS/CIS评估的InceptionV3网络针对源/目标分类任务进行了培训。IS在所有验证集上进行评估，而对于CIS/LPIPS，我们遵循[21]评估程序。

语义分割

我们衡量Syntheticclear的有效性→ 通过使用MUNIT或CoMoMUNIT输出训练PSPNet-50，实现图6中清晰、模糊的翻译。为了进行比较，我们还使用清晰源Synthia或基于物理的雾模型训练分割作为指导。对于MUNIT和CoMoMUNIT，我们采用了5种固定风格的多模态风格采样策略。此外，对于CoMoMUNIT和允许它的模型翻译，我们对统一

进行了采样。我们遵循设置并训练150个时期，每个设置使用3498个训练图像。表6a报告了Cityscapes（CS，500幅图像）和Foggy Driving[53]（FD，101幅图像）验证集真实图像上共享SynthiaCityscapes类的标准mIoU。虽然转换很微妙，但它仍然减少了域偏移，因为即使Model显著优于source，但我们仍以+4.7/+1.6/+3.2的额外优势击败了所有人。值得注意的是，我们改进了清晰（CS）和模糊（FD）数据集，显示CoMo MUNIT保留了准确的清晰和模糊翻译。相反，我们推测MUNIT专注于目标数据集雾强度，这些雾强度是离散的，可能与FD不同，而我们的FIN层能够实现连续表示，从而实现更好的泛化。图中两个数据集的定性评估。6b考虑mIoU性能。

4.4、连续翻译质量

为了评估翻译的连续性，我们展示了第7天的等距

翻译→ 时间推移（图7，底行），合成→ 真实（图8）和iPhone→ 单反（图9）。总之，无论骨干和任务如何，我们的翻译都很有吸引力，因为我们的网络发现了模型指南中没有的独特视觉特征。这在单反相机中非常明显（图9），尽管有简单的模糊引导，但它还是学习了景深，或者在分离雾实验中（图8），因为随着雾的增加，平移包含了所需的真实外观。

4.4.1、基准评估

我们评估具有挑战性的一天→ 随着文学的流逝。这并非微不足道，因为据我们所知，我们的提案是第一个连续循环GAN。虽然以前的一些工作可以适用于循环平移（例如DLOW），但它们都需要中间标记的目标点。因此，为了在Waymo Open中实现补偿数据稀缺性的公平比较，我们将所有基线的时间推移公式化为线性{天，黄昏/黎明，夜晚}，并使用循环网络在黄昏或黎明分支之间随机采样。请记住，所有基线都比我们的基线更有监督性，因为它们使用中间黄昏/黎明点，而CoMoGAN则从无监督的目标数据中发现流形。我们现在详细介绍基线。 StarGAN v2是一种最先进的多目标i2i架构，从同一源点学习多重映射。我们在当天对其进行了正式实施培训→黎明/黄昏→Nightpath，并利用其风格代码解纠缠功能实现连续i2i。 DLOW在设计上是连续的。我们用2个单峰DLOW日训练它→ 黎明/黄昏和黎明/黄昏7→ 夜注意，它可以是多目标的，但我们已经与最近的StarGAN v2进行了比较。DNI[64]应用深度网络插值在连续i2i的未调谐网络的核之间进行插值。我们调整了两个基线DNI-CycleGAN和DNI-MUNIT都在第7天训练→ 黎明/黄昏→ 夜。

比较

从图7中可以看出，基线（第1-4行）在插值点（StarGAN v2/DNI）或不切实际的结果（例如，夜间的DLOW）中表现出有限的可变性。一个关键的限制是，他们依赖（分段）线性插值，无法发现夜晚的静止方面（最后3列）。相反，CoMo MUNIT（最下面一行）的翻译在晚上既逼真又静止。我们还使用Frechet Inception Distance[17]（FID）来测量生成图像和真实图像之间的特征距离，研究了所有翻译的真实性。为此，我们统一划分高程范围[+30◦, −40◦] 在70个重叠的7个箱中◦ 并且通过比较100个平移和自组织真实图像来计算每个仓FID。我们将其称为“滚动FID”，如图10a所示。

从后者来看，我们的方法优于其他方法，尤其是在复杂的中间条件下。注意精确的“黎明/黄昏”中心的基线性能（监督它们的地方），以及它们的FID在接近夜晚时如何退化（约−18◦). 即使在无监督的情况下，我们较低的FID显示CoMoMUNIT更好地学习了这些复杂的视觉过渡。提出了一种具有代理任务的替代精度评估方法，该方法是一个InceptionV3网络，该网络经过训练，可以从真实图像和

地面实况中回归太阳高程。对于每种方法，我们在100个

位置生成100个图像，并用InceptionV3测量输入

和推理之间的误差。表10b显示，我们以3.96的成绩优于其他方法◦ 由于我们更好的地图绘制。

4.5、消融研究

架构更改

我们通过去除

和

中的任何一个来消融它们的使用。评估一天的多样性→延时翻译，我们对100幅图像的10对随机

进行采样，并评估翻译对之间的LPIPS距离。我们获得了0.020 w/o LM和0.044 w/o

的LPIPS，而使用两者证明是最好的，为0.236。

混乱的重建

当我们解开实域

和模型域

时（参见图2），可操纵GAN[23]直接在

。为了研究其中一个好处，我们将

和

替换为

，如[23]所示。图11显示了我们和[23]的离散FID，λ=1.5，根据真实数据（蓝色）或模型翻译（橙色）进行评估。情节复杂但有趣。具体而言，黎明/黄昏时的低FID推断出该模型在那里是可靠的，而夜间的发散FID则意味着相反。当λ=1时，i2i缺乏指导，表现不佳，但更高的λ增加了模型模拟，降低了真实FID。相反，我们的模型是以模型为指导的，但随着独家目标特征的发现，我们学会了偏离模型。