Cycle-object consistency for image-to-image domain adaptation

狼啸风云

发布于 2023-10-07 15:52:26

2370

发布于 2023-10-07 15:52:26

摘要

生成对抗性网络（GANs）的最新进展已被证明可以通过数据扩充有效地执行目标检测器的域自适应。虽然GANs非常成功，但那些能够在图像到图像的翻译任务中很好地保存目标的方法通常需要辅助任务，例如语义分割，以防止图像内容过于失真。然而，在实践中很难获得像素级注释。或者，实例感知图像转换模型分别处理对象实例和背景。然而，它在测试时需要目标检测器，假设现成的检测器在这两个领域都能很好地工作。在这项工作中，我们介绍了AugGAN Det，它引入了循环目标一致性（CoCo）损失，以生成跨复杂域的实例感知翻译图像。目标域的目标检测器直接用于生成器训练，并引导翻译图像中保留的目标携带目标域外观。与之前的模型（例如，需要像素级语义分割来强制潜在分布保持对象）相比，这项工作只需要更容易获取的边界框注释。接下来，对于感知实例的GAN模型，我们的模型AugGAN-Det在没有明确对齐实例特征的情况下内化了全局和对象样式转移。最重要的是，在测试时不需要检测器。实验结果表明，我们的模型优于最近的目标保持和实例级模型，并实现了最先进的检测精度和视觉感知质量。

1、介绍

物体检测领域的最新进展导致了显著的性能改进，特别是对于单阶段物体检测器，其在检测速度和精度之间提供了良好的平衡。这是通过复杂的训练策略（如数据增强[1]）来实现的，以增加输入图像的可变性，从而使目标检测器对例如在不同环境中获得的那些图像具有更好的鲁棒性。然而，如Braun等人[2]、Yu等人[3]所示，当训练的检测器模型部署在不同于（增强的）训练集的新领域时，整体检测性能仍然显著下降。该限制的自然解决方案是将源域（例如，白天图像）中的标记数据执行图像到图像的转换，以转换到目标域（例如夜间图像）。

一种流行的解决方案是CycleGAN，它通过在生成对抗性网络（GAN）中引入循环一致性来执行不成对的图像到图像翻译。它鼓励以规则化的结构输出进行双向图像翻译。从那时起，各种作品[6-9]被提出，并在图像翻译任务中取得了令人印象深刻的成果，如horse ↔ zebra, vangogh ↔ photo, 和cat ↔ dog。

然而，这些现有的方法很容易在保存目标方面失败，如图1所示。也就是说，具有明确目标保护的现有解决方案可以保留目标，但它们的外观可能无法充分适应目标领域。最近，实例感知图像翻译模型旨在通过使用检测标签或生成器的现成目标检测器来对齐实例特征来改善这一问题。例如，INIT采用实例和全局样式来指导目标域目标的生成。不幸的是，他们的模型在测试时忽略了实例级别的信息，只使用全局信息。DUNIT在学习过程中应用了现成的通用目标检测器和实例级编码器来提取实例增强的特征，并在原始图像和（昼夜）变换图像之间对齐实例特征。

在本文中，我们首次引入了一个名为AugGAN-Det的实例感知GAN框架，以联合训练具有目标检测器（用于图像对象样式）和鉴别器（用于全局样式）的生成器，如图2所示。据此，提出了一种新的循环目标一致性（CoCo）损失，以在图像到图像的转换过程中保持实例级特性。也就是说，目标域的目标检测器（即，边界框）将直接参与训练生成器，并导致引导翻译图像中的图像目标在复杂域中携带逼真的目标域外观。最重要的是，与Bhattacharjee等人相比，在测试时不需要物体检测器。

我们的贡献如下：（i）我们设计了一个图像到图像的翻译网络，通过利用一种称为CoCo的新的循环一致性损失，该网络将生成器与目标检测器（用于目标风格）和鉴别器（用于全局风格）联合训练。最重要的是，在测试时不需要物体检测器；（ii）我们定量地证明，单独使用目标标签（即边界框）来学习保留目标的图像翻译可以比在GAN训练中利用像素级语义分割获得更好的结果（见表3）；（iii）进行了广泛的实验。我们的方法主要在INIT、GTA和BDD100k三个流行的基准上取得了更好的定量和定性结果。

2、相关工作

2.1、目标检测

在过去的几年里，随着细胞神经网络的出现，物体检测器取得了显著的性能。现代检测器通常由两部分组成，一个是预先训练的CNN主干，另一个是预测目标类别和边界框的检测头。通常，物体检测器可分为两类，即一阶段物体检测器和两阶段物体检测器。由于实时适用性在许多应用中具有很大的实际意义，单阶段检测器最近受到了越来越多的关注。

2.2、数据增强

数据扩充是提高目标检测模型鲁棒性和实现更高检测精度的重要技术。例如，随机擦除和剪切试图模拟物体遮挡，希望检测器学会在视觉上理解物体外观的本质，即使只能看到物体的一部分。DropOut、DropConnect和DropBlock等工作将类似的概念应用于特征图。最近，MixUp、CutMix、GridMix和Mosaic被提出组合多个图像以进行额外的数据增强。然而，上述引入的方法通常不是专门设计来增强模型跨领域的稳健性的。正如Braun等人所指出的，建议使用要部署的检测器的域的数据来训练（行人）检测器，以实现最高精度。因此，跨领域的标准数据扩充策略并不有效。

2.3、生成对抗网络

由于最近GANs的成功，许多方法采用GANs进行图像翻译任务。例如，Pix2Pix在给定配对训练数据的情况下，在目标域中提供视觉上可信的图像。通过引入循环一致性约束来鼓励具有正则化结构输出的双向图像翻译，CycleGAN在只有未配对数据可用的情况下实现了惊人的图像翻译结果。UNIT[6]进一步应用了权重共享约束来提高翻译的一致性。通常，一旦训练过程完成，GAN模型就放弃鉴别器。然而，NICEGAN证明了由鉴别器中的对手损失训练的编码器仍然是有信息的。因此，在生成图像时重复使用鉴别器进行编码在数量上是有益的。

为了增强源和生成图像之间的结构一致性，CyCADA试图在前向循环中引入下游分割模型，在后向循环中加入语义一致性损失。AugGAN提出在两个周期中以多任务方式使用辅助分割任务，以防止内容失真。CyCADA和AugGAN之间的主要区别在于，前者只涉及前向循环中的下游分割任务。AugGAN设计了多任务生成器，学习在两个周期中同时执行图像翻译和分割。BicycleGAN是一种多模式的图像到图像转换模型，但需要在真实驾驶场景中无法轻松获取的配对数据。DRIT和MUNIT都是能够处理未配对图像的多模式Gan。但是，整体图像样式和特定对象外观不能单独变换。多模式AugGAN是一种多模式结构一致的图像到图像翻译网络，它将两个领域的语义分割模型与多模式图像翻译网络相集成。与AugGAN相比，由于多模式行为，多模式AugGAN可以在目标域中提供多样化和视觉上令人信服的结果，并具有更好的对象保存。然而，像素注释的必要性限制了该方法的适用性。INIT和DUNIT都是实例感知的GAN模型。前者采用实例和全局样式来指导目标域对象的生成。但是，该模型在测试时会丢弃实例级别的信息，并且只使用全局模块。后一项工作应用现成的对象检测器（由MSCOCO训练）和实例级编码器来提取学习过程中的实例增强特征，并在原始图像和变换图像之间对齐实例特征。如Braun等人[2]所示，对于行人检测，当训练和测试数据来自同一领域（即一天中的时间）时，可以获得最高的检测精度。然而，MSCOCO只包含不到1%的微光图像，DUNIT在测试时仍然需要一个目标检测器来利用目标实例功能。

3、提出的模型

在图像翻译问题中，目标是学习两个视觉域

之间的网络。先前的方法有时期望n类分割的基本事实，即

是可用的，使得变换图像的图像结构与其在原始域中的对应图像一致。然而，获得逐像素注释是非常昂贵的。因此，在这项工作中，我们只假设来自两个视觉域的具有相关目标标签的边界框，

，即在M×N网格单元内具有C类的k个对象是可用的。我们的目标是学习映射Gx→ y和Gy→ x以X和Y为条件，给定X'和Y'。

我们网络的详细架构如表1所示。我们的探测器包括主干、预训练的ResNet-18和检测头。值得一提的是，网格单元大小为12×6，每个网格单元可以预测同一类的两个目标（由u、v、w、h和目标分数描述）。在这项工作中，当考虑C类目标时，对于384×192的图像，最后一层的神经元变成12×6×（5×2+C）。对于鉴别器，我们遵循PatchGAN的设计，因为它可以以完全卷积的方式处理任意大小的图像。

3.1、检测损失

3.1.1、循环目标一致损失

我们的模型使用目标域检测器而不是现成的对象检测器[15]来引导生成器。一般来说，我们期望给定Ex生成的编码潜在向量，生成器Gx→ y学习生成图像，试图在保持对象一致性的同时欺骗鉴别器Dx。正如Chu等人[36]所指出的，强循环一致性将强制重建的信息隐藏在翻译图像ytrans中。因此，在我们的循环重建阶段，添加了另一个鉴别器来约束x和x rec之间的循环对抗性一致性，该一致性由生成器Gy Ey产生→ x.最重要的是，我们提出了循环对象一致性（CoCo）损失，如图3所示。它使ytrans和xcyc中的对象在前向循环中同时可检测，并使xtrans和y-cyc中的对象都在后向循环中可检测。即，鼓励由检测主干Bx和by以及预测头Hx和Hy预测的检测结果

。也就是说，它强制在翻译的图像中保留目标。

从技术上讲，我们将一个单阶段目标检测器纳入生成器的训练中。在正向循环中，边界框中心位于网格单元（i，j）内的目标的损失定义为：

其中

，

是格子细胞（i，j）的分类分数。

和

是第n个预测结果的目标分数、坐标、宽度和高度。对应的标签值分别为

。本文我们设置

对于非目标网格，即目标窗口中心位于网格单元（i，j）内的目标，其损失函数由下式给出：

其中

，关于后向循环，对象网格和非目标网格损失表示为：

和

3.1.2、图像翻译目标一致损失

除了CoCo损失之外，我们发现目标检测器和生成器之间的相互作用与鉴别器和生成器之间非常相似，即目标检测器和鉴别器都可以压倒生成器。受旨在防止鉴别器过度自信的标签平滑[41]的启发，我们还试图通过控制检测器的训练收敛来实现生成器和目标检测器之间的平衡。为此，我们对GTA数据集进行了实验。如表6所示，未融合和冻结的目标检测器只能引导生成器生成具有非常有限的目标域样式外观的目标，从而导致非常低的AP（平均精度）。同时，收敛和冻结的检测器倾向于向生成器提供无信息的反向传播信号，并且具有比未收敛和冻结目标检测器更好的AP。

从技术上讲，给定平移图像y trans，通过

和

。类似地，在反向循环中使用的附加损失是

和

。

3.2、其他损失

3.2.1、对抗损失

在我们的模型中有两种对抗性损失。第一个是为引导x和y在风格上分别正确翻译为y和x而设计的。在这项工作中，我们应用了最小二乘对抗性损失[43]，因为它在我们的实验中产生了更好的图像翻译结果。第一个对抗性损失函数如下：

其中Ex和Gx→y尝试生成变换后的图像

，看起来与来自域y的图像相似，而Dy旨在区分翻译样本

和实样本y。在后向循环的图像翻译阶段，对抗性损失为

。为了鼓励xrec和yrec接近原始x和y，第二个对抗性损失使用了两个额外的鉴别器，分别是

。前向循环中的循环对抗性损失建模如下，

反向循环通过类似的损失

。

3.2.2、自重建损失

CycleGAN采用了Taigman等人提出的技术。当目标域的真实样本被提供作为生成器的输入时，将生成器正则化为接近身份映射。这项工作中的重建损失是基于共享潜在空间假设。当源图像的潜在矢量被提供作为Gy→ x的输入时，它是通过正则化平移来近似同一映射来完成的。它是通过自动编码器类型的损失来建模的，

将与

相同的重建损失应用于后向循环。

3.3、网络学习

我们网络的目标是让两个生成器分别学习转换整体图像和特定对象外观的样式。整个目标如下所示，

并且我们的目标是在模型训练期间解决以下优化问题：

4、实验结果

数据集通常，大多数现有的免费数据集[45-47]都是在白天收集的。在这项工作中，我们主要在三个数据集上测试了我们的模型AugGAN-Det：（i）INIT数据集[14]被提出用于提供物体检测标签的四种驾驶场景中的道路图像翻译。所有数据（132201张用于训练的图像和23328张用于测试的图像）都是在日本东京收集的；（ii）GTA数据集——最著名的合成数据集之一，包含低级和高级注释，包括光学流、语义分割、实例分割、对象检测和跟踪。数据集分为134K、50K和70K帧，分别用于训练、验证和测试；以及（iii）BDD100k数据集[3]在美国许多城市和地区收集，包含在一天中不同时间在不同天气条件下记录的100k驾驶视频。最近，DarkFace数据集在能见度低的情况下提供了人脸注释，例如夜间具有挑战性的照明条件。由于人脸很小，无法指导GAN模型，我们使用BDD100k中的行人标签训练了我们的模型。然后，训练后的模型在FEDS（Face pEdestrain dEtion DataSet）数据集和采样的LTFT（Long Term Face Tracking）数据集[50]上进行昼夜图像转换，以训练更好的人脸检测器，以便在DarkFace数据集上进行评估。更具体地说，涉及来自FEDS数据集的训练集的4138张包含人脸的图像，以及来自LTFT数据集的街道和孟加拉序列的10 0 0张采样图像。DarkFace数据集中有6000个标记的图像，训练和验证分割分别通过随机采样40 0 0和2000个图像来完成。最后，我们还评估了我们的模型从KITTI到城市景观的跨数据集域自适应任务。前者是在德国中型城市卡尔斯鲁厄周围行驶拍摄的，由7481张训练图像和7518张测试图像组成；后者在欧洲50个不同的城市收集，由2975张训练图像、500张验证图像和1525张测试图像组成。这两个数据集都是为包括物体检测在内的一系列视觉任务而设计的。

结构

11和12使用YOLOv1和Faster R-CNN[23]评估了昼夜图像转换的性能，这两种方法在某种程度上已经过时了。此外，高级驾驶员辅助系统（ADAS）或自动驾驶汽车中的大多数检测应用已经转移到YOLOv3甚至YOLOv4。因此，在这项工作中，除了Faster R-CNN在KITTI和Cityscape数据集之间分析的自适应检测实验领域外，我们使用YOLOv4进行了大部分分析。在评估由不同GAN模型转换的图像时，我们遵循与先前方法相同的方案。

实现

我们提出的模型已在PyTorch[51]中实现。由于GPU内存的限制，我们使用384×192像素的输入图像分辨率。在我们的检测器实现中，我们采用了轻量级的ResNet-18作为主干，并在其顶部堆叠了一个类似YOLO的（12×6网格单元）头。在我们的所有实验中，我们分别训练源域和目标域检测器，稍后将与生成器联合训练它们。两个检测器都使用SGD训练了30个时期，批量大小为32，动量为0.9，学习率为0.0001，衰减为0.0005。最后，当两个检测器的训练完成时，它们与我们的GAN模型集成，以表示生成器的CoCo损失，从而产生实例感知的图像翻译结果。值得一提的是，两个检测器仍然与我们的GAN模型同时训练，但它们只从真实图像和相应的检测标签中学习。

4.1、INIT数据集

如表2所示，我们的结果始终优于其他模型，特别是对于INIT和DUNIT，在总共6个场景中，就启始得分（IS）而言，启始得分是评估图像翻译性能的重要指标。定性地说，在昼夜场景中（图4），它表明，与其他竞争对手相比，特别是与MUNIT和DRIT相比，我们的模型在全局风格和对象风格方面具有更平衡的颜色对比。然后，就白天到多云的情况而言（图5），然而，它表明，与其他竞争对手相比，我们的模型可以显示更多的对象保留结果，如放大边界框所示。

4.2、GTA数据集

接下来，我们在合成数据集GTA上评估我们的模型。我们的模型明显超过了多模式AugGAN，并且只需要边界框GT注释。如表3的第一行所示，我们的模型在夜间检测精度方面优于竞争方法。定性地说，如图6所示，很明显，我们的模型可以产生视觉上合理的实例感知目标领域的结果。

4.3、BDD 100K数据集

为了在真实驾驶的BDD100k数据集中获得更好的结果，我们不仅使用从GTA学习的GANs对BDD100k进行昼夜图像翻译，而且尝试使用这两种方法。如表3所示，我们的模型始终优于其他竞争方法。在图7中，我们可以很容易地观察到，NICE-GAN和MUNIT有时会关闭图像内车辆的前灯或尾灯。即使在某些情况下灯是打开的，但位置和颜色可能是错误的。考虑这两个因素，AugGAN和多模AugGAN可以获得更好的结果。然而，即使使用语义分割子mask网络，夜间车辆的外观仍然不够逼真，因为特定对象的风格转换不是实例感知的，并且可能会受到图像整体风格的影响。

4.4、DarkFace数据集

在我们的GAN中使用人脸检测作为下游检测器来执行图像平移在实践中是可能的。然而，在要集成到我们的GAN框架中的浅层探测器中检测微小物体是非常困难的。因此，我们建议使用BDD100k数据集中的行人标签来训练AugGAN-Det，对采样的FEES和LTFT数据集进行D2N翻译，这些数据集为以后训练强大的YOLOv4提供了人脸标签，然后在DarkFace数据集的验证集上测试人脸检测结果。值得一提的是，由于DarkFace数据集非常暗，与BDD100K有很大不同，因此YOLOv4是用DarkFaces的训练集以及来自FEDS和LTFT数据集的昼夜变换图像进行训练的。我们的AugGANDet不仅满足了上述两个条件，而且实现了更高的检测精度，这清楚地表明，在极端黑暗的场景中，使用昼夜变换的图像也有助于检测人脸。翻译后的图像分别如图8和图9所示。

4.5、更多域的变换

我们的模型能够在不成对的域对之间学习变换，其中任何一个域都可能处于不同的天气条件和一天中的时间。更彻底的演示如图所示。10本文采用的三个公共数据集。我们可以很容易地观察到，特定对象的风格翻译是实例感知的，而不会受到整体图像风格的影响。

4.6、真实驾驶场景中的目标检测

由于我们的模型可以提供更具视觉吸引力的图像转换结果，因此夜间检测器从我们的模型生成的昼夜转换图像中学习可以在夜间车辆检测方面获得明显更好的结果，如图所示。11。此外，在训练过程中，我们的模型逐渐学会了将整体图像变暗，并打开前车的尾灯，如图12的下一行所示（从左到右）。

4.7、极端暗场景的人脸检测

使用我们的模型生成的DarkFace图像和昼夜变换图像进行训练，可以在能见度低的情况下获得更好的人脸检测结果。人脸检测结果对比如图13所示。

4.7.1、其他域适配的结果

我们的模型也在跨数据集领域自适应的任务上进行了测试。我们遵循与Bhattacharjee等人相同的实验设置，在KITTI到城市景观领域的适应中。即KITTI数据集是源域，Cityscape数据集是目标域。在本实验中，更快的R-CNN在目标域图像上进行训练，然后在不同模型提供的源到目标图像上进行评估，包括DT、DAF、DARL和DAOD。这样，可以通过检测精度来评估不同模型进行的图像翻译的性能。平移图像的检测结果如图14所示。在MUNIT变换的图像中，红框内的行人和汽车没有被保留。因此，它们不能被检测到，并导致表5中的检测精度较低。在我们提出的方法中，生成器学习执行图像平移，同时尽可能多地保持目标域检测器可检测到的对象。DUNIT在训练GAN中应用了现成的对象检测器，这就是为什么检测精度明显高于NICE-GAN和MUNIT。我们的模型在每类AP和mAP方面优于该任务中的其他模型，因为生成器与目标检测器联合训练，以学习逐渐生成保留对象和实例感知的翻译图像。

5、进一步模型分析

在这项工作的过程中，为了追求视觉上更好、数量上更有利的结果，我们进行了一些针对更好的架构和训练策略的分析。

5.1、检测器和生成器训练

在这项工作的早期阶段，我们发现检测器和生成器之间的相互作用与鉴别器和生成器之间非常相似。即检测器和鉴别器二者都可以超过发生器。受旨在防止鉴别器过度自信的标签平滑的启发，我们试图通过控制检测器的训练收敛来实现生成器和检测器之间的平衡。我们进行了三个实验来评估对象检测器如何参与生成器训练。如表6所示，未融合和冻结的检测器只能引导生成器生成具有非常有限的目标域样式外观的对象，从而导致较低的AP。收敛和冻结的检测器倾向于向发生器提供无信息的反向传播信号，并简单地增加损失。当检测器与生成器联合训练时，生成器不断学习生成真实的和目标域的检测器可检测目标。

5.2、消融研究

我们的网络设计假设，通过CoCo损失，目标检测器可以作为图像到图像转换的辅助正则化。然而，在检测精度方面，两个周期中的两个图像平移阶段的对象一致性损失可能在一定程度上仍然有帮助。FID和我们的模型变化的检测分析如表7所示。很明显，CoCo损失比目标一致性损失更重要，如前两行所示。相反，通过使用昼夜图像来执行对象一致性损失和CoCo损失而训练的单个检测器只能提供较差的结果。

5.3、目标域检测器的不同训练数据

我们已经进行了几个实验来了解变换后的图像如何帮助训练夜间探测器，如表8所示。GTA-val-night数据集分为大小相等的GTA-val-Night1和GTA-val-夜光2。我们发现，单独使用GTA val day的精度最低。当仅使用日间检测器训练两个域的生成器时，图像转换质量会降低，因此使用两个域中的检测器是至关重要的。将昼夜数据与真实的夜间数据混合获得了最高的精度，这证明用真实和合成数据训练夜间探测器是有价值的。

5.4、其余客观和主观评价

为了进一步客观评估GTA情况下生成的夜间图像的质量，我们使用FID来分析昼夜变换图像与真实夜间图像之间的相似性。理论上，昼夜变换后的图像也有助于对夜间车辆进行语义分割。我们采用流行的FCN8（基于VGG16）来报告FCN分数，并完全遵循其他GAN模型（如Lin等人）提到的协议，以进行更公平的比较。使用流行的FCN8（基于VGG16）来报告FCN得分，还分析了昼夜变换图像在多大程度上有助于执行夜间车辆的语义分割。最后，为了知道我们的模型AugGAN Det生成的昼夜转换图像是否在视觉上更好，我们还对平均意见得分（MOS）进行了主观评估，为我们的方法和其他竞争方法提供了视觉评级（从一到五，越高越好）。共有51名随机非专家观察员参与，这些问题旨在证明三个因素。第一个考虑了实例感知图像的脆弱性。即，在昼夜情况下，车灯的颜色和位置。二是整体风格的传递质量。第三个是文物保护水平。这三个因素对于确定昼夜变换的图像是否真实是不可或缺的。如表9所示，我们的模型实现了最低的FID，因为从白天到晚上改造的车辆在夜间车身的外观纹理、车辆尾灯的亮度和夜间车身的清晰度方面更逼真。我们的模型也导致了更高的FCN分数，因为FCN被训练来更好地了解车辆的夜间外观。在表10中，MOS比较表明，我们的工作在尾灯的精致性和更好的物体保护方面优于MUNIT和NICE-GAN。多模式AugGAN可以比MUNIT和NICE-GAN实现更好的目标保存，但目标外观对实例的感知不够。

5.5、t-sne可视化

t-SNE[60]是一种广泛用于降维的非线性技术，因此可以可视化高维数据。这个强大的工具可以根据具有多个特征的数据点的相似性来识别观察到的聚类，从而确定数据中的模式。t-SNE在我们的情况下工作得很好，因为当从高维映射到低维时，它可以将具有相似外观的对象分组在一起。图15显示了t-SNE在GTA和BDD100k数据集上的可视化结果。很明显，大多数昼夜转换的图像（蓝点）与真实的夜间图像（红点）非常接近。也就是说，我们提出的方法成功地使改造后的车辆具有真实夜间车辆的特性。

6、结论和将来的工作

在本文中，我们提出了CoCo损失，以利用目标检测器通过GAN模型执行实例感知图像翻译。我们经验证明，生成器学习降低要转换为目标域中对应目标风格的目标的检测损失。与之前的模型（例如，需要像素级语义分割来强制潜在分布保持目标）相比，这项工作只需要更容易获取的边界框注释。至于感知实例的GAN模型，我们的模型AugGAN-Det在没有明确对齐实例特征的情况下内化了全局和对象样式转移。最重要的是，在测试时不需要检测器。因此，大多数已发布的用于物体检测的数据集都变得有价值，因为例如，一天中不同天气条件和时间的标记数据可以“免费”转换为物体检测器，以在指定场景中获得更好的结果。这项工作的局限性在于图像中的目标不能太小。因此，我们在GAN模型中通过一个人的全身而不是在DarkFace实验中通过他的脸来训练检测器。我们计划在未来创建该模型的多模式版本。因此，可以以实例感知的方式将单个注释转换为目标域中的多个图像，以进一步提高目标检测器的准确性。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

cycle