ManiFest: manifold deformationfor few-shot image translation

狼啸风云

发布于 2023-10-07 15:57:58

2940

摘要

大多数图像到图像的翻译方法都需要大量的训练图像，这限制了它们的适用性。相反，我们提出了ManiFest：一个用于少样本图像翻译的框架，它只从少数图像中学习目标域的上下文感知表示。为了增强特征一致性，我们的框架学习源域和附加锚域（假设由大量图像组成）之间的风格流形。通过基于patch的对抗性和特征统计对准损失，将学习到的流形插值并朝着少样本目标域变形。所有这些组件都是在单个端到端循环中同时训练的。除了一般的少样本翻译任务外，我们的方法还可以以单个样例图像为条件来再现其特定风格。大量实验证明了ManiFest在多项任务上的有效性，在所有指标上都优于最先进的技术。

1、介绍

图像到图像翻译（i2i）框架在自动驾驶和照片编辑等多种应用中越来越受欢迎。这些方法依赖于大规模数据集的可用性，因此它们仅限于可获得大量图像的应用。

不幸的是，每次追求新的i2i场景时都要施加重大的数据收集限制是不现实的。除了获取大量图像所涉及的复杂后勤之外，一些场景可能是罕见的（例如极光）或危险的（例如火山喷发），从而甚至无法获取足够的训练数据。已有人提出了现有的方法来缓解对大型数据集的需求，但它们大多在高度结构化的环境中显示出现实的结果，如人脸翻译。

在这种情况下，我们提出了ManiFest，这是一种用于少样本图像到图像转换的框架，它被证明对高度非结构化的转换（如恶劣天气生成或夜间渲染）是稳健的。我们的方法如图1所示。从观察到特征一致性（即哪些图像部分应该一起翻译）对于非结构化i2i至关重要开始，并且少样本域几乎没有提供有效训练的线索而不会过拟合。事实上，ManiFest不是直接处理少样本i2i，而是利用在稳定流形上学习的特征进行少样本域转换。为了做到这一点，它利用了风格转换和基于补丁的训练所启发的技术。我们要么学习翻译成近似于整个少样本集的某种通用风格，要么从中复制一个特定的例子。简而言之，我们的贡献是：

–ManiFest，一个通过加权流形插值（WMI）和局部全局少样本（LGFS）使用特征一致性的多样本图像翻译框架。 –我们介绍了GERM，这是一种新的残差校正机制，用于实现一般和示例翻译，也提高了性能。 –我们的框架优于之前在恶劣天气和弱光少镜头图像翻译任务方面的工作。我们还对罕见（极光）和危险（火山）事件进行了定性评估。

我们在第2节中讨论了相关工作，并在第3节中介绍了我们的方法。后者在第4节中进行了全面评估，我们在第5节中展示了几个扩展。

2、相关工作

图像到图像翻译（i2i）： 尽管早期的i2i翻译方法需要配对数据，但循环一致性或最近的对比学习替代方案已经消除了这种限制。许多方法将风格和内容分开，以实现多模式或多目标翻译，而其他方法则使用额外的策略来增加场景上下文保存。翻译网络可以以各种附加信息为条件，包括语义、实例、几何、模型、低分辨率输入或示例图像。尽管如此，所有这些都需要大量的数据。

数据限制的GAN： 已经有几次尝试来克服训练GANs的大数据需求。一些人使用迁移学习来调整先前训练的网络以适应新的少样本任务。特别地，[34]使用基于补丁的鉴别器来推广到少样本域。然而，这些方法是为生成网络设计的，并不立即适用于i2i。另一项工作侧重于有限的数据场景，但当很少（10-15）张图像用于训练时，通常表现不佳。其他人则利用额外的知识来实现少搜索或零样本学习，例如姿势-外观分解、图像条件或文本输入。FUNIT和COCO-FFUNIT使用少量镜头式编码器来适应推理时的网络行为。有些人使用元学习来快速适应新出现的领域。这些方法在高度非结构化的场景中显示出有限的性能。[7] 利用几何结构进行基于补丁的少镜头训练，但仅限于具有特定特征的有限域。

自然风格迁移： 风格转移可以被视为少样本i2i的一个例子，其中的目标是结合两个图像的内容和风格[9]。这可能会导致扭曲，一些工作试图减轻这种扭曲。具有任意输入样式的样式转换的第一个示例在[12，21]中。其他人则试图通过使用平滑步骤或小波变换以逼真的方式传递风格。这些方法在一些受控场景中提供了良好的结果，但它们可能无法理解我们准确学习的源元素和风格元素（如天空、建筑等）之间的上下文映射。

3、流形

风格转移可以被视为少样本i2i的一个例子，其中的目标是结合两个图像的内容和风格。这可能会导致扭曲，一些工作试图减轻这种扭曲。具有任意输入样式的样式转换的第一个示例在[12，21]中。其他人则试图通过使用平滑步骤或小波变换以逼真的方式传递风格。这些方法在一些受控场景中提供了良好的结果，但它们可能无法理解我们准确学习的源元素和风格元素（如天空、建筑等）之间的上下文映射。这允许利用在锚点上学习的额外知识，如特征一致性（即，要一起翻译的图像部分）。为此，加权流形插值（WMI，第3.2节）利用风格插值从锚点上的学习特征一致性中获益。我们允许使用通用示例残差模块（GERM，第3.3节）进一步偏离插值流形，该模块学习反映整体外观的残差图像，从而使风格能够转移到通用少镜头风格（近似于整个集合T），或转移到T中的单个示例，如[31]所示。我们学习T的外观，并将其注入到具有局部全局少样本损失的流形中（LGFS，第3.4节）。在下文中，真实图像是

，

，伪图像是

。其中

是我们的输出。

3.1、多目标i2i

而不是直接地学习

，我们假设一组两个锚域的可用性，

，具有丰富的数据（相当于少样本分类中的“基本”类别，例如[3]）。通过构造，一个锚点始终是身份域（

），而另一个锚点（

）包含比T更容易收集的图像，例如合成图像或来自现有数据集的图像。我们将多目标图像翻译问题形式化为学习

映射。在训练时，我们分别使用内容编码器E（·）和风格编码器Z（·）来理清图像内容和外观。

其中

是艾弗森括号。给定锚样式的翻译如图2所示为“选择”。多目标鉴别器

采用对抗性损失

和

来迫使假图像

类似于

。其他训练细节在支持材料中。

3.2、带权重的流行插入（WMI）

我们的直觉是，在A的线性插值样式表示之间编码T应该在T中增强特征一致性。例如，假设S=白天，T=夜晚，

=合成夜晚，则网络将被提供所有天空像素应该一起变暗的信息。

在实践中，我们学习权重

，其和为1，并通过插值锚样式表示来编码具有特征一致性的图像

：

这在图2中显示为“插值”。学习w使我们能够确定

流形中与T最一致的点。这一点可以从LGFS损失中了解到（第3.4节）。

3.3、通用样例残差模块（GERM）

我们的GERM试图通过学习图像空间中的残差来进一步提高真实性。此外，我们的设计能够区分一般翻译和范例翻译。其思想是通过学习残差图像

来允许与

流形的偏差，这有助于对来自T的缺失特征进行编码。这是通过用生成器

处理输入图像特征

来实现的，使得

其中

是控制基于一般或示例的模态的向量。在这两种情况下，我们都从AdaIN风格的注入[13]中获得了灵感，并将注入的参数设置在不同的向量上，如图3所示。

对于示例残差，通过将残差条件化为

来再现如[31]中的特定图像

的风格。在这种情况下，

其中，

和

。由于LGFS损失利用VGG统计信息（第3.4节），Gr将被驱动利用输入统计向量提供的附加信息，有效地使生成的图像更类似于t。我们通过去除对t的条件，转而注入随机噪声来学习一般残差：

3.4、局部全局小样本损失

为了指导学习，将得到的图像

与具有两个损失函数的组合的少镜头训练集

进行比较。首先，我们从最先进的图像风格转移中获得灵感，其中一个图像足以转移风格场景的全局外观。我们的直觉是，在风格转移中广泛使用的特征统计对齐，相对于对抗性训练，可能不太容易过度拟合。因此，我们使用风格损失

来对齐

和目标图像

之间的特征，如[12]所示

其中

与第3.3节中的相同。虽然这在修改一般图像外观方面是有效的，但仅对齐统计数据不足以产生逼真的输出。因此，为了提供局部指导，即在更细粒度的特征上，我们使用了一个额外的鉴别器

，该鉴别器被训练来区分从

和t采样的旋转补丁。我们定义了对抗性损失：

其中p是随机裁剪和旋转函数。注意样本残差（来自第3.3节）是如何以这里使用的相同特征统计为条件的——这就是实现网络基于样本的行为的原因。还要注意组件之间的相互作用：在WMI识别的点上，反向传播LGFS损失会使多目标i2i学习到的流形变形，从而在

之间注入

。我们在支持视频和材料中提供了变形流形的额外可视化。

3.5、训练策略

我们的框架经过端到端的全面训练并进行了优化

其中，

是指网络参数。我们通过在每次训练迭代中随机选择示例模式或通用模式之一来训练GERM（第3.3节）。对于多目标设置，我们在下面[5]的多目标设置中调整主干的鉴别器和样式编码器。

4、实验

我们利用了4个数据集和3个翻译任务（第4.1节），并根据最近的基线评估了性能（第4.2节）。我们进一步证明了我们的少样本翻译在下游分割任务（第4.3节）和罕见的少样本场景（第4.4节）中的优势，并最终消除了我们的贡献（第4.5节）。总之，我们使用MUNIT作为我们的支柱。

4.1、训练步骤

数据集我们使用四个数据集进行实验。

ACDC

我们在大多数实验中使用ACDC[46]，使用夜间/雨/雪/雾条件，分别为400/100/500张图像进行训练/val/测试，遵循官方划分。对于任何单独的情况，ACDC还包括相同分裂的地理定位弱配对晴朗天气日图像。

Dark Zurich

与ACDC类似，Dark Zurich具有白天图像和夜间/黄昏条件。在这里，我们只关注黄昏条件，并使用来自GOPRO348序列的训练图像，因为它表现出独特的黄昏外观。我们将总共819个图像对分为25/794个，分别用于训练/测试。

Cityscapes

Cityscapes[6]用于评估ManiFest，以训练对夜间鲁棒的细分网络。它包括2975/500/1525张用于列车/val/测试的注释图像。VIPER作为锚点，我们使用来自VIPER数据集[43]的合成图像，使用条件元数据来定义拆分。4137/3090/1305/2018/2817个图像分别从VIPER训练集中提取用于白天/夜晚/雨/雪/日落条件。

VIPER

作为锚，我们使用来自VIPER数据集[43]的合成图像，使用条件元数据来定义拆分。4137/3090/1305/2018/2817个图像分别从VIPER训练集中提取用于白天/夜晚/雨/雪/日落条件。

任务和评估我们在三个主要任务上训练我们的框架：

Day→ACDC 白天（S）和夜间（T）的夜间。

Clear→ Fog ACDC白天有雾（S）和雾（T）。

Day→Twilight 白天的黄昏（S）和黄昏（T）。

除非另有说明，否则VIPER的（合成）锚域是“夜”表示“天”→昼夜→ 黄昏，晴朗的“白天”→雾我们使用FID和LPIPS指标进行评估。当FID全局比较特征距离时，LPIPS比较翻译的源图像和目标数据集中的地理定位配对图像。这有利于评估我们的范例模态。总之，我们在下采样的x4图像上进行训练。

4.2、和最新方法的比较

基线

我们比较了

的少样本图像翻译的四个基线。我们在最具挑战性的一天进行广泛评估白天→夜间任务，并为另外两项任务提供见解和比较。我们在第4.5节中评估了少样本图像选择和

的影响。我们与最近的FUNIT和COCO-FFUNIT进行了比较

，并在[29，44]之后适用于少样本

（一般）或单个参考图像（示例）。对于示例图像翻译，我们还添加了特定的基线。首先，我们与WCT[56]进行了比较，WCT[55]用于将配对目标条件的样式转换为源条件。我们还评估了EGSC-IT。该方法是通过合并

和

来训练的，因为它应该能够识别域间的可变性，将T风格与

分开。为了定义度量边界，我们还在

、全

集和

的

上训练我们的MUNIT骨干。更多与主干网的比较见第4.5节。我们使用作者提供的官方代码。不支持有关基线的更多详细信息。

评估

我们比较了图4中的定性结果。当天→夜间（图4a），即使T中图像的外观部分转移到翻译的图像上（例如道路颜色、较暗的天空），FUNIT和COCO-FUNIT仍然保留了A的一些特征（例如，注意街道与GTA街道的相似性），这会恶化整体图像的真实性。

EGSC-IT也可以观察到这一点，其中锚定图像（第一列）中自我车辆的引擎盖被保留，并显著影响视觉结果。虽然WCT显示出清晰的结果，但它不能正确地映射图像上下文，并且它仅限于外观对齐，这会导致伪影（例如，带白色光晕的黄色天空）。我们的方法在一般模式和样本模式中都产生了比基线更好的结果，在所有三项任务中都有明显的差异：测试样本的总体外观是一致的，每个结果都适应其样本。例如，观察整个天空的颜色（Day→暮光之城，图4b）与示例相匹配。在这里，样本在训练中是看不见的（不是少数镜头集T的一部分），因此GERM概括了少数镜头学习的样本行为。表1中的定量评估与定性结果一致，因为我们总是优于基线。我们的表现与当天在400张训练图像中训练的骨干相当（一般），甚至更好（示例）→夜间（表1a）。这一结果表明，与AdaIN范例风格注入相比，GERM（第3.3节）改进了范例风格的建模。范例行为可能会迫使伪影跟随场景的微妙特征（如图4c中的树），对此，一般翻译可能是可取的。

4.3、下游的分割任务

我们利用语义分割来评估ManiFest在具有挑战性的场景中的稳健性。在图5中，我们在城市景观[6]的夜间版本上训练HRNet[51]，该版本是通过使用ManiFest或MUNIT翻译数据集并在ACDC夜间验证集标签上进行评估而获得的。我们在表1a中选择了最佳的MUNIT和ManiFest配置，遵循夜间现实主义，|T|=25。作为下限和上限，我们在原始城市景观（基线）或ACDC夜间训练集（oracle）上训练HRNet。图5显示，由于我们更好的目标域建模，我们的性能优于MUNIT主干（+3.09mIoU）。其他领域的其他结果是补充性的。

4.4、稀少的少样本场景

很少有照片能在自然界罕见、难以拍摄甚至危险的条件下发挥其全部作用，比如极光或火山喷发。图6展示了ManiFest学习山地的能力→火山或白天→Aurora，通过将Yosemite夏季和冬季数据集[63]分别作为来源和锚。每个任务只使用谷歌图像中的4张图像作为T。我们从山脉图像开始生成真实的喷发火山或极光，并进行上下文理解（图6，第1-4列），其中只有一座山脉被映射到一座火山，极光仅部分覆盖天空。图6（第5-6列）还展示了如何保存样本特征。

4.5、消融研究

结构组件：

我们使用日期来评估ManiFest中每个组件的贡献（参见图2，第3节）一般场景中的夜间任务，并在图7a中报告结果。通过删除

或

来研究LGFS的影响，表明本地和全局指导都在改进翻译。从训练流程中删除GERM同时排除了示例行为并恶化了性能，证明了在

跨越的流形之外编码互补特征的有效性。WMI的好处在两个实验中进行了评估。首先，“w/o WMI”设置将残差直接应用于伪锚图像

，而不是如等式中那样的插值

。（3）。较差的性能与

中存在的合成特性有关（例如图7b中的道路纹理）。其次，“仅LGFS”直接使用LGFS损失来替代Ladv，而不使用WMI和GERM组件。虽然它只是稍微恶化了指标，但对特征一致性的影响是显著的，如7b图所示。天空呈现明显的伪影，道路轻微变暗。

锚的选择

我们通过从VIPER数据集中选择不同的条件，即{天、夜、雨、雪、日落}，来消除锚域A的选择。特别是，我们在以前的数据集内（S和T取自同一数据集）任务上进行了实验，以及在S=ACDC Day和T=DZ Twilight的跨数据集任务上进行实验。表2中的结果显示了大多数锚的性能如何保持相对稳定。这似乎有违直觉，因为例如，人们可能会认为“Rain”主播在第7天是一个糟糕的选择→ 夜间任务由于下雨和夜间场景看起来不一样。相反，结果表明WMI只对转换中的一致性进行编码，因此对锚点的选择是稳健的。我们还测试了一个多锚点设置（表2中的“All”），其中a={Aid，Day，Night，Rain，Snow，Sunset}。通常，由于WMI中可用于成形流形的附加信息，更多的锚域提高了性能，在至少一个度量的所有情况下都排名第一或第二。我们假设多个锚点有助于识别S和T之间的对应关系，尤其有利于跨数据集任务。

图像和变化的数量

首先，我们将我们的

翻译与|T|={25，20，15，10，5，1}的MUNIT进行比较，以了解少样本训练对骨干网络的影响。一些定性的一般输出如图8a所示。当MUNIT过度填充并创建不真实的外观（25–10个图像）或折叠（5，1个图像）时，我们在所有情况下都输出真实的变换，甚至在极端的单镜头场景中保留图像上下文。图8b和8c中分别针对一般和示例场景的FID和LPIPS证实了这一点。

在表3中，我们还研究了变异性，评估了|T|={25，15，5，1}图像报告7次运行结果的一般和示例情况下的FID和LPIPS。总体而言，性能保持相对恒定，但单样本设置除外，在单镜头设置中，尽管进行了逼真的转移，但由于目标图像本身可能无法准确地表示测试集的风格分布，因此指标会受到影响。

5.1、少样本连续流形

我们研究了在CoMoGAN[40]中使用ManiFest进行连续图像翻译的情况，从而通过生成真实的中等正面太阳/黄昏条件来学习Waymo[47]数据集上从S=白天到Am=夜晚的转换，其中我们只有很少的图像。在这里，我们考虑两个少数镜头集（|T|=10），每个镜头集与身份锚和夜间锚之间的一组学习权重（w1，w2）相关联。结果如图所示。9，其中我们的表现也与DNI-MUNIT[52]和CoMoGAN相当，后者使用明显更多的中间数据进行训练（4721 vs 20）。请注意，估计w1和w2真实地重组了变换（即Day→正面太阳→暮光→Night），而不事先知道歧管中设置的几个镜头的数量级。我们评估了[40]中的平均滚动FID（mrFID），并与基线持平或更好（对于Model/StarGAN V2/DNI-CycleGAN/DNI-MUNIT/CoMoGAN/Ours，我们得到195/177/155/144/145/145）。只有CoMoGAN（mrFID 137）由于其物理指导而表现出色。

5.2、基于锚的翻译

GERM从编码的源图像中提取残差信息。我们首先从

翻译，研究残差在锚图像上的应用，使用我们的主干循环一致性[13]，然后在

中重新编码假图像重建无需再培训（见图10）。这显示了ManiFest如何同时学习S→T和可接受的Am→T变换。当在合成锚上施加残余物时，FID w.r.t.ACDC Night从142提高到130，从而证实了它们向t的转变。

6、结论

在本文中，我们提出了ManiFest，这是一个用于少镜头i2i的框架，它能够将图像转换为近似于整个少镜头集的单一通用风格（例如，用于照片编辑），或者从该集中复制任何特定的样本以获得更多的可变性（例如，适用于领域自适应）。我们证明了它在许多任务上的有效性优于最先进的技术，消除了它的组件，并提供了对框架的扩展。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

image