CyCADA: Cycle-Consistent Adversarial Domain Adaptation

狼啸风云

发布于 2023-10-07 15:26:16

7060

摘要

领域适应对于在新的、看不见的环境中取得成功至关重要。对抗性适应模型通过专注于发现域不变表示或通过在未配对的图像域之间进行映射，在适应新环境方面取得了巨大进展。虽然特征空间方法很难解释，有时无法捕捉像素级和低级别的域偏移，但图像空间方法有时无法结合与最终任务相关的高级语义知识。我们提出了一种使用生成图像空间对齐和潜在表示空间对齐来适应域之间的模型。我们的方法，循环一致的对抗性领域适应（CyCADA），根据特定的有区别的训练任务指导领域之间的转移，并通过在适应前后加强相关语义的一致性来避免分歧。我们在各种视觉识别和预测设置上评估了我们的方法，包括道路场景的数字分类和语义分割，提高了从合成驾驶领域到现实驾驶领域的无监督自适应的最先进性能。

1、介绍

深度神经网络擅长从大量数据中学习，但可能不善于将学习到的知识推广到新的数据集或环境中。即使稍微偏离网络的训练领域，也可能导致其做出虚假预测，并严重损害其性能（Tzeng et al.，2017）。从非真实感合成数据到真实图像的视觉领域转变带来了更重大的挑战。虽然我们希望在大量合成数据（如从图形游戏引擎收集的数据）上训练模型，但这种模型无法推广到真实世界的图像。例如，在合成行车记录仪数据上训练的最先进的语义分割模型无法在真实图像中分割道路，其每像素标签的总体准确率从93%（如果在真实图像上训练）下降到54%（如果仅在合成数据上训练，见表6）。

特征级无监督域自适应方法通过在没有任何标记的目标样本的情况下，在源（例如合成）域和目标（例如真实）域上对齐从网络中提取的特征来解决这个问题。对齐通常涉及最小化源和目标特征分布之间的一些距离度量，例如最大平均差异、相关距离或对抗性鉴别器精度。这类技术有两个主要限制。首先，对齐边际分布不会强制任何语义一致性，例如，汽车的目标特征可以映射到自行车的源特征。其次，深度表示的更高级别的对齐可能无法对低级别外观变化的方面进行建模，这对最终视觉任务至关重要。

特征级无监督域自适应方法通过在没有任何标记的目标样本的情况下，在源（例如合成）域和目标（例如真实）域上对齐从网络中提取的特征来解决这个问题。对齐通常涉及最小化源和目标特征分布之间的一些距离度量，例如最大平均差异（Long&Wang，2015）、相关距离（Sun&Saenko，2016）或对抗性鉴别器精度（Ganin&Lempitsky，2015；Tzeng等人，2017）。这类技术有两个主要限制。首先，对齐边际分布不会强制任何语义一致性，例如，汽车的目标特征可以映射到自行车的源特征。其次，深度表示的更高级别的对齐可能无法对低级别外观变化的方面进行建模，这对最终视觉任务至关重要。

生成像素级域自适应模型不是在特征空间中而是在原始像素空间中执行类似的分布对齐，将源数据转换为目标域的“样式”。最近的方法可以学习翻译仅给定两个领域的无监督数据的图像（Bousmalis等人，2017b；Shrivastava等人，2017；刘等人，2017）。这种图像空间模型仅被证明适用于小的图像尺寸和有限的域偏移。最近的一种方法（Bousmalis等人，2017a）被应用于更大的图像，但在机器人应用的视觉简单的受控环境中。图像到图像的翻译技术，如CycleGAN（Zhu et al.，2017），已经产生了视觉上有吸引力的结果，在自然场景中保留了本地内容，但在设计时没有考虑到最终任务，因此可能并不总是保留语义。例如，一个从谷歌街景中提取的数字到手写数字的模型可以学习使打印的8看起来像手写的1。

我们提出了循环一致对抗域自适应（CyCADA），它在像素级和特征级自适应表示，同时增强语义一致性。我们在自适应过程中使用循环一致性损失（即源应该与映射到目标的源匹配，映射回源）和基于特定视觉识别任务的语义损失来增强结构和语义一致性。语义损失既引导整体表示具有鉴别性，又加强域之间映射前后的语义一致性。我们的方法提供了一个统一的领域对抗性学习模型，该模型结合了先前图像级方法的可解释性和低级别结构一致性以及先前特征级方法的正则化和强大的经验性能，如表1所示。

我们证明，在输入图像和风格化图像之间加强语义（任务特定）一致性和循环一致性，可以防止标签在SVHN和MNIST之间的大偏移（例如，防止SVHN 9映射到MNIST 2）。在我们的语义分割任务（GTA到CityScapes）中，我们没有观察到标签偏移是错误的主要来源，即使没有语义一致性损失，但发现周期一致性至关重要。正因为如此，并且由于内存限制，我们专注于循环一致性，以在分割任务的传输过程中保持结构。总的来说，我们的实验证明，域自适应可以从像素和表示变换的组合中受益匪浅，联合自适应模型在一系列视觉识别任务中实现了最高的性能。

2、循环一致的对抗域适应

我们考虑无监督自适应的问题，其中我们被提供源数据

、源标签

和目标数据

，但没有目标标签。目标是学习正确预测目标数据

的标签的模型

。

预训练源任务模型

我们首先简单地学习一个可以对源数据执行任务的源模型

。对于具有交叉熵损失的K路分类，这对应于：

其中

表示softmax函数。然而，尽管学习的模型

将在源数据上表现良好，但通常在源域和目标域之间的域偏移导致在对目标数据进行评估时性能降低。

像素级适配

为了减轻领域转移的影响，我们遵循以前的对抗性自适应方法，并学习跨领域映射样本，使得对抗性鉴别器无法区分领域。通过将样本映射到一个公共空间，我们使我们的模型能够在学习源数据的同时仍能推广到目标数据。

为此，我们介绍了一种从源到目标

，并训练其产生欺骗对抗性鉴别器

的目标样本。相反，对抗性鉴别器试图从源目标数据中对真实目标数据进行分类。这对应于损失函数：

这一目标确保了

，给定源样本，产生令人信服的目标样本。反过来，这种在域之间直接映射样本的能力使我们能够通过最小化

来学习目标模型

（见图2绿色部分）。然而，尽管以前优化类似目标的方法已经显示出有效的结果，但在实践中，它们往往不稳定，容易失败。尽管等式2中的GAN损失确保了

对于某些

将类似于从

中提取的数据，无法保证

保留了原始样本

的结构或内容。为了使得在转换过程中保留源内容，我们对我们的适应方法施加了循环一致性约束（见图2红色部分）。为此，我们介绍了另一种从目标到源的映射

，并根据相同的GAN损失

对其进行训练。然后，我们要求将源样本从源映射到目标，再映射回源，以再现原始样本，从而增强循环一致性。换句话说，我们想要

和

。这是通过对重构误差施加L1惩罚来实现的，该重构误差被称为循环一致性损失：

此外，由于我们可以访问源标记数据，我们明确鼓励在图像翻译前后保持高度的语义一致性。这有助于防止上述和图4（a）所示的标签错误。我们使用预训练的源任务模型

作为一个有噪声的标注器，通过它，我们鼓励在翻译后以与翻译前相同的方式对图像进行分类。让我们将给定输入

的固定分类器

中的预测标签定义为

。然后我们可以定义图像翻译前后的语义一致性如下：

见图2黑色部分。这可以被视为类似于风格转移或像素自适应中的内容损失，其中要保留的共享内容由源任务模型

决定。

特征及适配

到目前为止，我们已经描述了一种自适应方法，该方法结合了循环一致性、语义一致性和对抗性目标来生成最终目标模型。作为一种像素级方法，对抗性目标由鉴别器组成，鉴别器区分两个图像集，例如变换的源图像和真实的目标图像。请注意，我们还可以考虑特征级别，即在任务网络下区分两个图像集的特征或语义的方法。这相当于额外的特征级GAN损失（见图2橙色部分）：

总之，这些损失函数构成了我们的完整目标：

这最终对应于根据优化问题求解目标模型

我们提出了一种无监督自适应方法，该方法将先前的对抗性目标视为在像素或特征水平上操作，并推广到一种可能从这两种方法中受益的方法。此外，我们将循环一致性与语义转换约束相结合，以规范从一个域到另一个域的映射。在下一节中，我们将CyCADA应用于数字分类和语义分割，将

和

实现为像素对像素的卷积网，将

和

实现为卷积网分类器或全卷积网（FCN），将

、

和

实现为具有二进制输出的卷积网。

3、实验

我们在几个无监督的适应场景中评估了CyCADA。我们首先关注使用MNIST、USPS和街景门牌号码（SVHN）数据集进行数字分类的自适应。之后，我们使用GTA和CityScapes数据集展示了语义图像分割任务的结果，关于SYNTHIA数据集的额外实验，请参见附录A.1.2。

3.1、数字适配

我们通过USPS到MNIST、MNIST到USPS以及SVHN到MNIST的适应转变来评估我们的方法。我们使用训练集训练我们的模型，MNIST-60000图像，USPS-7291图像，标准SVHN训练-73257图像。评估报告的标准测试集：MNIST-10000图像，USPS-2007图像。我们在表2中报告了与之前的工作和相关基线相比，每个转变的分类精度，并发现我们的方法平均优于竞争方法。我们所有数字移位方法的分类器使用了LeNet架构的变体（完整实施细节请参见补充a.1.1）。注意，由于MNIST向USPS的转换相对容易，我们的方法与最先进的方法相比表现良好。相反，当从USPS图像适应MNIST时，我们的方法优于竞争方法，MNIST涉及监督数字标记数据的一小部分。对于SVHN到MNIST，我们的方法优于除UNIT之外的所有其他深度分布对齐方法（Liu et al.，2017），但UNIT中报告的性能使用来自SVHN的>500000个图像的扩展训练集，而我们报告的性能仅使用73257个图像的标准集。

接下来，我们对模型的三个部分进行一系列消融研究。表3报告了SVHN的量化性能增益！MNIST领域转移用于删除模型的每一部分，证明了包含每个组件的重要性。我们还在下面讨论并展示定性比较。

消融：像素级和特征级迁移

我们首先评估像素空间和特征空间转移的贡献。我们发现，在USPS和MNIST之间的小域偏移的情况下，我们使用使用CycleGAN翻译的图像来训练分类器的像素空间自适应表现非常好，优于或可与先前的自适应方法相比较。在这种小像素偏移的情况下，特征级自适应提供了一个小的好处。然而，对于SVHN向MNIST更困难的转变，我们发现特征级自适应优于像素级自适应，重要的是，两者可以结合起来生成一个优于所有竞争方法的整体模型。

消融：没有语义一致性

我们在没有增加语义一致性损失的情况下进行了实验，并发现当将SVHN训练为MNIST时，标准的无监督CycleGAN方法出现了分歧，而MNIST通常受到随机标签错误的影响。图4（a）展示了两个例子，其中仅循环约束无法为我们的最终任务产生所需的行为。SVHN图像被映射到令人信服的MNIST风格的图像，并返回到具有正确语义的SVHN图。然而，类似MNIST的图像具有不匹配的语义。我们提出的方法使用源标签来训练弱分类模型，该模型可用于在翻译前后加强语义一致性，从而解决了这一问题。

消融：无周期一致性

我们研究了循环一致性损失的重要性。首先要注意的是，如果没有这种损失，就没有重建保证，因此在图4（b）中，我们看到转换回SVHN失败了。此外，我们发现，虽然语义损失确实鼓励了正确的语义，但它依赖于弱源标签器，因此标签错误仍然会发生（见右图三）。

3.2、语义分割适配

接下来，我们评估了CyCADA在语义分割方面的作用。任务是为输入图像中的每个像素分配一个语义标签，例如道路、建筑物等。我们将评估限制在无监督自适应设置中，其中标签仅在源域中可用，但我们仅根据我们在目标域中的性能进行评估。

对于每个实验，我们使用报告三个总体性能指标。设nij是预测为类j的类I的像素的数目，设ti＝Pj-nij是类I的像素的总数，并且设N是类的数目。我们的三个评估指标是，联合上的平均交集（mIoU）、联合上的频率加权交集（fwIoU）和像素精度，定义如下：

循环一致对抗性自适应是通用的，可以应用于网络的任何层。由于在实践中端到端优化方程6中的完整CyCADA目标是内存密集型的，因此我们分阶段训练我们的模型。首先，我们执行图像空间自适应，并将源数据映射到目标域。接下来，使用具有原始源标签的自适应源数据，我们学习适合于对目标数据进行操作的任务模型。最后，我们使用任务模型的中间层之一，在特征空间中的自适应源数据和目标数据之间执行另一轮自适应。此外，我们不将语义损失用于分割实验，因为这需要将生成器、鉴别器和额外的语义分割器同时加载到两个图像的存储器中。在提交时，我们没有所需的内存，但将其留给未来的工作来部署模型并行性或使用更大的GPU内存进行实验。

为了证明我们的方法适用于真实世界的适应场景，我们还在具有挑战性的合成到真实适应环境中评估了我们的模型。对于我们的合成源域，我们使用从游戏《侠盗猎车手V》中提取的GTA5数据集，其中包含24966张图像。我们考虑了从GTA5到真实世界Cityscapes数据集的适应，从中我们使用了19998张没有注释的图像进行训练，并使用了500张图像进行验证。这两个数据集都是在同一组19个类上评估的，允许在两个领域之间进行直接的适应。关于评估合成环境中跨季节适应的额外实验，请参见附录A.2。图像空间自适应还为我们提供了视觉检查自适应方法的结果的能力。与不透明的特征空间自适应方法相比，这是一个明显的优势，尤其是在没有标签的真正无监督的环境中，没有办法对自适应模型进行实证评估，因此没有办法验证自适应是否提高了任务性能。从视觉上确定源图像和目标图像之间的转换是合理的，虽然不能保证任务性能的提高，但可以作为一种健全性检查，以确保自适应不会完全发散。这个过程如图2所示。有关实施细节，请参见附录A.1.2。

3.2.1、合成到真实的应用

为了评估我们的方法对真实世界适应设置的适用性，我们研究了从合成图像到真实世界图像的适应。该评估结果如表4所示，消融结果如表5所示，定性结果如图5所示。我们试验了两种不同的基础架构：常用的VGG16-FCN8s架构和最先进的DRN26架构。CyCADA再次取得了最先进的成果，恢复了因域转移而损失的约40%的性能。CyCADA还提高或保持了所有19个类的性能。对fwIoU和像素精度以及单个类IoU的检查表明，我们的方法在大多数常见类上都表现良好。尽管一些类别，如火车和自行车，几乎没有改进，但我们注意到，这些类别在GTA5数据中的代表性很差，这使得识别非常困难。我们将我们的模型与Shrivastava等人进行了比较。（2017）对于这种设置，但发现这种方法没有收敛，并且导致比纯源模型更差的性能（完整细节请参见附录）。

我们在图6中可视化了GTA5和城市景观之间的图像空间自适应结果。原始图像和改编图像之间最明显的区别是饱和度——GTA5图像比Cityscapes图像生动得多，因此改编会调整颜色以进行补偿。我们还观察到纹理变化，这可能在道路上最明显：在游戏中，道路看起来粗糙，有很多瑕疵，但城市景观道路的外观往往相当均匀，因此在从GTA5转换为城市景观时，我们的模型去除了大部分纹理。有趣的是，我们的模型倾向于在图像的底部添加一个风帽装饰，这虽然可能与分割任务无关，但进一步表明图像空间自适应正在产生合理的结果。

4、相关工作

视觉域自适应问题与成对度量变换解决方案一起由Saenko等人提出。（2010），并通过对视觉数据集偏差的广泛研究进一步推广（Torralba&Efros，2011）。早期的深度自适应工作侧重于通过最小化源和目标的一阶或二阶特征空间统计之间的距离来进行特征空间对齐（Tzeng et al.，2014；龙和王，2015）。通过使用领域对抗性目标，这些潜在的分布对齐方法得到了进一步的改进，即训练领域分类器来区分源和目标表示，同时学习领域表示，以最大限度地提高领域分类器的误差。使用标准极小极大目标（Ganin&Lempitsky，2015）、对称混淆目标（Tzeng等人，2015）或反向标签目标（Tzeng等人，2017）来优化表示。这些目标中的每一个都与生成对抗性网络的文献（Goodfellow等人，2014）和改进这些网络的训练程序的后续工作有关（Salimans等人，2016b；Arjovsky等人，2017）。

上述特征空间自适应方法侧重于对判别表示空间的修改。相反，其他最近的方法已经使用各种生成方法在像素空间中寻求自适应。正如我们所展示的，像素空间自适应的一个优点是，由于来自一个域的图像现在可以在新的域中可视化，因此结果可能更容易被人类理解。通过特定层的显式权重共享来联合学习源和目标表示，而每个源和目标都有一个独特的生成对抗性目标。Ghifary等人（2016）在目标域中使用额外的重建目标，以鼓励在无监督的适应环境中进行对齐。

相反，另一种方法是直接将目标图像转换为源风格图像（反之亦然），主要基于生成对抗性网络（GANs）。研究人员已成功将GAN应用于各种应用，如图像生成、图像编辑和特征学习。最近的工作针对这些图像到图像的翻译问题采用了条件GANs，但它们需要输入输出图像对来进行训练，这在领域适应问题中通常是不可用的。

也有一些工作线没有提供这种训练配对。Yoo等人（2016）学习源到目标编码器-解码器以及重建上的生成对抗性目标，该目标用于预测人们穿着的衣服。域转移网络（Taigman et al.，2017b）通过增强嵌入空间中的一致性来训练生成器将源图像转换为目标图像。Shrivastava等人（2017）使用L1重建损失来强制生成的目标图像与其原始源图像相似。这对于有限的域偏移很有效，其中域在像素空间上相似，但对于具有较大域偏移的设置来说可能过于有限。刘等人（2017）考虑学习独特的编码器，这些编码器到达共享的潜在空间，并且可以被重建到相同的领域或翻译到另一个领域。某些层的手动定义共享用于促进两个领域模型之间的一致性。Bousmalis等人（2017b）使用内容相似性损失来确保生成的目标图像与原始源图像相似；然而，这需要关于图像的哪些部分在域（例如前景）之间保持相同的先验知识。我们的方法不需要预先定义域之间共享的内容，而是简单地将图像翻译回其原始域，同时确保它们与原始版本保持一致。BiGAN/ALI（Donahue等人，2017；Dumoulin等人，2016）采用了一种同时学习像素和潜在空间之间的变换的方法。循环一致性对抗性网络（CycleGAN）（Zhu et al.，2017）产生了令人信服的图像翻译结果，例如从印象派绘画中生成真实感图像，或者使用循环一致性损失将马转化为高分辨率的斑马。Yi等人同时提出了这一损失。（2017）和Kim等人（2017）也产生了巨大影响。我们的动机来自于对循环一致性损失的有效性的这些发现。

很少有工作明确地研究用于语义分割任务的视觉域自适应。Levikov&Fritz首次研究了简单道路场景中的天气条件适应性。最近，提出了一种基于卷积域对抗性的方法，用于更通用的驱动凸轮场景和从模拟环境到真实环境的自适应。Ros等人通过连接所有可用的标记数据和学习单个大型模型来学习多源模型，然后通过蒸馏转移到稀疏标记的目标域。Chen等人使用对抗性目标来调整全局和类特定统计数据，同时从街景数据集中挖掘额外的时间数据，以事先学习静态目标。张等人通过在图像中全局和跨超像素对齐标签分布来执行分割自适应。

5、结论

我们提出了一种无监督的领域对抗性学习方法，该方法将循环一致的图像翻译对抗性模型与对抗性自适应方法相结合。CyCADA通过可视化我们方法的中间输出，提供了图像空间自适应的可解释性，同时通过语义一致性和表示空间自适应生成了一个有判别力的和与任务相关的模型。我们在各种自适应任务上对我们的模型进行了实验验证，包括数字自适应和用于驾驶场景语义分割的合成到真实自适应。我们对我们的方法进行了广泛的消融，证明了我们方法的每个组成部分的重要性，其中的组合产生了最先进的方法。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

cycle