Cross-Domain Car Detection Using UnsupervisedImage-to-Image Translation: From Day to Night

狼啸风云

发布于 2023-10-07 15:40:51

2540

发布于 2023-10-07 15:40:51

摘要

深度学习技术使最先进的模型得以出现，以解决对象检测任务。然而，这些技术是数据驱动的，将准确性委托给训练数据集，训练数据集必须与目标任务中的图像相似。数据集的获取涉及注释图像，这是一个艰巨而昂贵的过程，通常需要时间和手动操作。因此，当应用程序的目标域没有可用的注释数据集时，就会出现一个具有挑战性的场景，使得在这种情况下的任务依赖于不同域的训练数据集。共享这个问题，物体检测是自动驾驶汽车的一项重要任务，在自动驾驶汽车中，大量的驾驶场景产生了几个应用领域，需要为训练过程提供注释数据。在这项工作中，提出了一种使用来自源域（白天图像）的注释数据训练汽车检测系统的方法，而不需要目标域（夜间图像）的图像注释。为此，探索了一个基于生成对抗网络（GANs）的模型，以实现生成具有相应注释的人工数据集。人工数据集（假数据集）是将图像从白天时域转换到晚上时域而创建的。伪数据集仅包括目标域的注释图像（夜间图像），然后用于训练汽车检测器模型。实验结果表明，所提出的方法实现了显著和一致的改进，包括与仅使用可用注释数据（即日图像）的训练相比，检测性能提高了10%以上。

1、介绍

深度学习技术使几种最先进的模型得以出现，以解决不同领域的问题，如图像分类、回归和目标检测，这是本工作的重点。然而，这些技术是数据驱动的，这意味着在测试数据集中实现的性能在很大程度上取决于训练数据集。因此，缺乏注释数据集可能会阻碍这些模型的训练。因此，当需要一个域（即目标域）中的高性能模型，但该模型是在不同但相似的域（即源域）上训练时，就会出现具有挑战性的场景。在这些情况下，目标域和源域在语义上非常接近，但在外观上非常不同。例如，人们可能对检测特定目标域（例如，夜间图像、雨天图像）中的物体（例如，人、汽车、摩托车）感兴趣，但只对来自不同域的注释图像感兴趣（例如，白天图像、非雨天图像）。

训练之所以困难，不仅是因为需要获取大量数据，还因为注释这些数据的过程需要时间和人工。为了缓解对图像进行注释的问题，文献中提出了几种方法：注释工具，有助于与用户的交互，并使这一过程更容易；众包注释工具，依靠人们自愿注释数据，这有时是一种付费服务；以及利用机器学习技术提取特征的自动标记。尽管有许多技术可以缓解这一过程，但这个问题仍然悬而未决，需要进一步调查。

在这种情况下，训练好的目标检测器跨域工作是一项非常理想的任务。因此，一种能够将图像从一个域转换到另一个域的方法可以帮助跨域传输注释。生成对抗性网络（GANs）的出现利用了图像生成方法的构建，可以解决翻译问题。这种类型的网络基于一种非常流行的处理图像的深度网络，称为卷积神经网络（CNN）。最近，出现了基于GAN的图像翻译方法，并进一步推进了以无监督的方式在不同领域之间执行图像翻译。例如，[16]的作者使用[15]中提出的监督技术来组成一个框架，称为CycleGAN。他们的方法能够在两个域之间双向转换图像，而不需要任何配对数据（即，需要在两个不同的域中收集完全相同的图像场景，这在某些情况下可能很困难或不可能）。利用来自源域的一组翻译图像及其各自传输的注释，可以训练目标检测器在目标域中工作。

跨领域检测的一个重要应用场景出现在自动驾驶车辆的背景下，其中人行道、行人、骑手、汽车等占用的区域应得到正确识别。然而，无尽数量的可驾驶环境导致了这些系统可以应用的大量领域，例如白天、晚上、下雪或下雨的场景。通常，在其中一个领域（例如白天图像）中更容易找到注释数据，但至关重要的是，这些检测器在所有领域中都能准确工作，使自主系统能够全天工作，而不管训练条件如何。考虑到在这些不同的驾驶场景中缺乏可用的注释驾驶数据，训练鲁棒模型以在这些高度动态的条件下检测物体的方法是一个挑战。

这项工作将仅对白天图像可用注释的夜间场景中的汽车检测问题作为所提出的改进跨域目标检测技术的测试案例。我们解决了这个问题，因为它是一个很难获得注释数据集的领域的实例。所提出的方法需要一组白天的注释图像和一组假设不被注释的夜间图像。为了解决目标域（即夜间）中缺乏注释训练数据的问题，该系统受益于基于GAN的无监督图像翻译器，以组装其注释直接从源域（即白天图像）继承的人工数据集（即假数据集）。这允许改进汽车检测器在目标域中的性能。

为了评估所提出的系统，在昼夜时域中使用真实世界的驾驶图像进行了几个实验。结果表明，与仅使用日间图像训练相比，仅使用伪夜间数据集训练的模型能够更好地检测夜间时域中的汽车。此外，在由白天数据集和伪夜晚数据集组成的数据集上训练模型产生了比单独在每个数据集上（即，仅在白天图像数据集上或仅在伪夜晚图像数据集中）训练更有效的模型。

本文的其余部分组织如下。下一节介绍相关工作。第三节介绍了所提出的跨域汽车检测系统。实验方法和获得的结果分别见第四节和第五节。最后，结论和未来的工作见第六节。

2、相关工作

在未标记的目标域中执行视觉任务已在文献中得到广泛研究。最近，基于GAN的模型的出现推动了无监督域自适应（UDA）的工作，其目的是使在一组共同性质的图像（即源域）上训练的模型自适应，以在不同但共同性质的图片（即目标域）上完成相同的任务。例如，[18]中提出了一种耦合生成对抗性网络（CoGAN），用于在图像级别学习多域的联合分布。为了解决UDA问题，CoGAN被用于使数字分类器适应不同于训练域的域的问题。类似地，[19]中提出的工作提出了一种无监督方法，该方法学习像素空间中从一个域到另一个域的转换，并在对象和数字分类任务中对其进行评估。虽然这些方法仅适用于图像级别的表示，但CyCADA[20]也考虑了特征级别，优于上述方法。

尽管UDA问题已经得到了广泛的研究，但大多数工作都集中在分类任务上，很少有工作在目标检测的背景下解决这个问题。例如，[21]在目标检测任务中采用了无监督的域自适应，解决了图像和实例级别上不同源-目标域的问题。他们的方法基于Faster R-CNN模型，其中引入了三个新的组件：两个域分类器，（i）一个在图像级别，（ii）另一个在实例级别，以及（iii）正则化损失，以帮助网络学习更好的域不变特征。尽管结果很有希望，但评估是用外观非常相似的源域和目标域进行的，例如，使用非常接近目标真实图像的计算机图形合成图像作为源图像。未测试考虑真实情况的域更改（如日光更改）。

与我们的工作密切相关的是，[23]中的研究提出了一种端到端的训练框架，该框架集成了基于CycleGAN的像素级域自适应和对象检测网络。第二部分与Faster R-CNN非常相似，只添加了一个用于对输入图像的域进行分类的对抗性网络。这个额外的网络以与[24]中相同的方式进行训练，导致在区域建议网络（RPN）中出现了域不变的特征。尽管解决了类似的应用背景（即汽车检测），但评估过程再次仅在非常相似的领域中执行，即与[21]中相同的领域。[23]中提出的新方法将[21]的结果提高了约1%。这种方法的另一个缺点是框架训练所需的GPU内存量非常大。这种约束要求现代GPU能够在训练期间同时在存储器中托管两个网络（CycleGAN和Faster R-CNN）。

在这项工作中，提出了一种训练汽车检测器在夜间环境中工作的方法，而不需要目标域的注释。与[23]相比，我们的方法需要更少的GPU内存，因为一次只训练一个网络。此外，在真实世界的图像中（从白天图像域到晚上图像域）对所提出的方法进行了评估，并表明与仅使用白天图像（下限基线）的训练相比，该方法能够改善结果，这在目标域没有注释时是相关的。

据我们所知，所解决的问题只能通过基于深度学习的方法来解决。

3、车辆检测的非配对图像翻译

本节描述了使用不成对的图像到图像转换来跨域传递注释来改进汽车检测的方法。如图1所示，所提出的方法包括三个主要步骤：（i）人工数据集生成，（ii）汽车检测器训练，以及（iii）汽车检测器推理。最初，使用未配对的昼夜图像来训练无监督的图像到图像翻译器，目的是从白天的图像生成（假）夜间图像，即将图像域从白天翻译到晚上。翻译人员被训练为只翻译跨领域的外观，这意味着感兴趣对象（即汽车）的位置和姿态保持不变。基于这一假设，注释（边界框）被直接分配给生成的图像。因此，人工生成的图像及其各自的注释共同构成了伪夜间数据集。在第二部分中，使用生成的数据集训练目标检测器，以便检测目标域中的汽车，在目标域中以前没有可用的注释。然后，部署的检测器准备推断夜间场景中的汽车位置，即，从该目标域检测真实图像中的汽车（推断）。

A、人工数据集生成

人工数据集的生成旨在提供目标域中的一组注释图像，这些图像将作为目标域中检测任务的训练数据。该系统假设有带注释的白天图像和无注释的夜晚图像，即两组256×256像素的图像。生成过程有两个方面。首先，以无监督的方式训练CycleGAN，生成基于CNN的模型（图2中的GN），该模型将负责昼夜翻译。然后，可以使用与用于训练CycleGAN的白天图像相同的注释来自动标记伪夜晚图像。

1） CycleGAN：如图2所示，CycleGAN框架以完全无监督的方式从两组未配对（即时间和空间分离）的图像中进行训练，一组在白天域，另一组在夜间域。生成器

和

分别接收未配对的昼夜图像，将它们翻译成相反域中自己的版本。

鉴别器使用

进行训练，以正确区分给定的图像是真实的夜间样本还是

产生的伪图像，目的是欺骗

。同时，

和

以相同的方式进行训练，但使用日域中的图像。为了完成训练框架，伪生成的图像被馈送到相反的生成器中，以便尝试恢复原始域中的图像。这是使用将循环一致性约束定义为

和

的损失来强制执行的，其中

和

分别是来自训练集的真实白天和夜晚图像。

使用循环一致性约束的实验表明，平移过程大多不会改变全局场景结构，以及对象（如汽车）的位置和几何结构。全局结构表示图像元素之间的关系。这一事实如图3所示。可以看出，从原始图像到各个伪图像，元素之间的关系都得到了保留。

2）伪造数据集生成：在CycleGAN的训练之后，生成器GN准备生成伪造的夜间图像。然后，属于白天域的初始训练数据集的每个图像（即，白天图像数据集）被馈送到GN中，生成新的且相应的伪夜间图像。

假设源图像和目标图像之间的结构一致性，正如经验观察到的那样（图3），源图像（白天）的注释可以直接复制到目标图像（晚上）。图4显示了边界框注释从白天图像转移到各自的夜间图像，即GN模型生成的图像。生成的伪图像和相应注释的集合包括伪夜数据集。需要注意的是，CycleGAN不必对不在训练数据集中的其他图像的翻译进行推广，因为它只用于生成与真实白天数据集配对的相应伪夜间数据集。一旦伪造的夜间数据集准备好，即由翻译过程生成，CycleGAN模型就不再必要，可以丢弃。

B、车检测器训练

汽车检测器使用通用物体检测器来确定图像中的汽车。目标检测器通常接收一张图像作为输入，并输出一组表示每个检测到的对象的边界框（定义矩形的图像中两点的坐标）。目标检测器通常使用用感兴趣的对象注释的图像样本来训练。由于这项工作感兴趣的是研究夜间场景中的汽车检测，而无需对夜间域进行特定注释，因此将前一步中生成的伪夜间数据集用作训练数据。在这项工作中，采用了Faster R-CNN[22]作为目标检测的框架。尽管存在许多其他模型，但考虑到该模型在文献中的巩固性、有效性和令人满意的性能，选择该模型作为概念验证。

最初提出的Faster R-CNN包括两个共享相同特征图的网络，一个负责提出潜在对象的区域，另一个负责重新定义和分类每个提出的区域。针对这个问题的Faster R-CNN的训练需要一组带有汽车边界框的注释图像。

C、车检测器测试

一旦训练了Faster R-CNN模型，它就可以最终用于检测目标域中的汽车。给定真实的夜间图像，训练后的模型预测汽车的边界框，以及每次检测的置信水平（实际值范围从0到1）。由于CycleGAN仅用于生成用于训练目标检测器的数据，因此推理的计算性能（即每个图像的推理时间）仅取决于所选的对象检测器（在本研究的情况下，为Faster R-CNN）。

4、实验方法

本节介绍了实验中使用的方法和材料。首先，给出了用于训练和评估系统的数据集。其次，描述了用于定量评估的度量，然后讨论了所进行的实验。随后，对所采用的模型的训练描述进行了详细说明。最后，介绍了用于实验的机器设置。

A、数据集

伯克利深度驱动（BDD）数据集用于训练和评估所提出的系统。该数据集由来自一天中不同时段、天气条件和驾驶场景的驾驶视频的图像（1280×720像素）组成。该数据集的图像带有几种类型的注释，如公交车、交通灯、交通标志、人、自行车、卡车、汽车、汽车、火车和骑手，以及可驾驶区域和用于驾驶指导的车道标记。BDD数据集还为每个图像提供了一些属性，例如一天中的时间：白天、夜晚和黎明/黄昏；天气：雨、雪、晴、阴，局部多云有雾；和场景：隧道，住宅，停车场，城市街道，加油站和高速公路。

由于这项工作侧重于昼夜翻译，因此BDD数据集是基于一天中的时间属性进行过滤的，只保留昼夜图像。数据集中的一些注释是错误的，例如，白天的图像被注释为夜晚的图像，反之亦然，需要进行目视检查。进一步的定义是，只选择天气属性为“晴朗”或“部分多云”的图像，场景为“高速公路”、“城市街道”或“住宅”。这些定义有助于获得两个不同且同质的域，并减少由于数据集中另一个域的干扰而可能产生的可变性。从目标检测注释中，仅使用了汽车注释。这些图片经过过滤，以确保它们都至少有一辆车。

为了应对GANs带来的高处理时间，图像按照两个步骤减少到256×256像素：（i）裁剪以汽车车道为中心的720×720像素的正方形，以及（ii）将裁剪后的图像重新缩放到256×256pixels。然而，尺寸的缩小使小型车变得更小，这阻碍了它们的视觉识别。为了避免这些情况，在调整大小的图像中，具有边界框的一侧小于20像素的汽车被从注释中删除。考虑到其中一侧小于30像素的边界框，去除了被遮挡或截断的汽车（这些注释也可在数据集中获得）。

总共，从剩余的集合中随机采样了12000幅图像，将其等分（每个3000幅）为四个子集：（i）白天训练，用作源域的真实图像进行训练，（ii）白天测试，用作源区域的地面实况，（iii）夜间训练，用作目标域的真实图片进行训练，以及（iv）夜间测试，用作目标区域的地面真相。为了允许复制实验，生成数据集的Python代码已公开。

B、实验

为了评估所提出的方法，进行了一组实验。CycleGAN最初被用于生成假图像，Faster R-CNN后来被训练用于检测汽车。然而，基于GANs的方法训练可能非常不稳定，可能会使优化过程陷入困境，甚至出现分歧。由于这种不便，CycleGAN训练被重复了几次，直到实现了能够产生视觉外观更接近真实图像的模型。一旦获得，就生成伪夜间数据集，并将其用于下面描述的所有实验。

考虑到五个不同的数据集，用Faster R-CNN进行了不同类型的训练：白天训练、假夜间训练、白天训练、假的夜间训练（根据实验的重点可以交换顺序，例如，假夜间训练）、夜间训练和白天训练。每种类型的训练重复10次进行后验统计分析，得到总共50个模型。在相同训练类型上的运行之间的差异是基于随机的过程的种子，例如网络的权重初始化和数据集的图像被呈现给训练的顺序。

为了评估所提出方法的有效性，将分析分为两种实验场景：一种是考虑一个全天工作的对象检测器（即混合源域和目标域）daytest和nighttest，另一种是只在夜间工作的对象探测器（即只在目标域）nighttest。

在daytest和nighttest上评估模型的实验类似于更具挑战性的现实世界应用问题，其中要求系统全天工作。在这个实验中，下界和上界基线分别是在白天训练和白天训练上训练的模型。需要注意的是，基线训练是使用完整的数据集注释执行的，该注释包括图像和边界框注释。假设在来自这两个领域的图像上训练的模型应该优于仅在白天图像中训练的模型。这项工作的一个假设是，伪夜间数据集的信息可以帮助检测模型比接近上界的下界表现得更好。为了证明这一假设，将用daytrainŞfake nighttrain训练的模型与下界和上界进行了比较。

在夜间测试中评估模型的实验解决了现实世界中不太具有挑战性的应用问题，即系统需要在夜间工作。在本实验中，下界基线和上界基线分别是在白天列车和夜间列车上训练的模型。同样，需要注意的是，基线训练是使用完整的数据集注释执行的。假设在目标域上训练的模型应该优于仅在源域的图像上训练的模式。这项工作的另一个假设是，fakenight数据集的信息可以提高模型在目标域上的性能。为了证明这一假设，将用假夜训练域假夜训练并白天训练的模型与下界和上界进行了比较。

C、性能评估

所提出的系统的最终目的是准确地检测汽车。为了量化检测器的质量，根据PASCAL VOC 2012挑战[33]中提出的定义，采用了平均平均精度（mAP）。平均精度（AP）被定义为某个目标类的精度召回曲线下的区域。首先，通过计算累积的真阳性或假阳性检测的精度和召回值来建立曲线。为此，检测按其置信度得分排序，并计算每次累积检测的精确度和召回率。其次，测量所有召回级别的插值精度值。为此，对于每个调用级别r，取调用值大于或等于r+1的最大精度。第三，将AP计算为插值精度召回曲线下的总面积。最后，mAP被计算为所有类别的AP的平均值（在这项工作中只有汽车类别）。

D、训练设置

1） CycleGAN：所使用的架构与原始论文中的架构相同，只是复制和裁剪机制[34]被禁用。采用的源代码是公开的，作者建议将其作为原始实现的替代方案。CycleGAN使用100个epoch（经验定义）进行训练，每个批次一张图像。默认值用于其他超参数。

2） Faster R-CNN：使用公共源代码3进行实验。Faster R-CNN特征提取器使用ResNet-101权重进行初始化，该权重在ImageNet数据集上进行训练[36]。这个预先训练好的模型是从TensorFlow网站4下载的。考虑到应用工作范围分别为[4，8，16，32]和[0.5，1，2]，确定了锚定比例和比率。

其余参数是根据经验确定的。在前70k次迭代中保持相同的学习率，并在接下来的30k次迭代中将学习率线性衰减为零，从而产生每批一张图像的100k次迭代。在训练过程中，通过水平翻转图像来进行数据扩充。

E、实验平台

实验在Intel Xeon E5606 2.13 GHz×8和1个Titan Xp GPU中进行，前者具有32 GB的RAM，后者具有12 GB的内存。该机器运行的是Linux Ubuntu 16.04，安装了NVIDIA CUDA 9.0和cuDNN 7.0[37]。训练和推理步骤是使用TensorFlow框架[38]完成的。CycleGAN模型的训练课程平均耗时25小时，Faster R-CNN模型的训练课平均耗时7.5小时。在使用的设置中，CycleGAN以大约每秒6帧（fps）的速率翻译图像，而Faster R-CNN以超过每秒7帧的速率执行检测。

5、结果和讨论

图5显示了在更具挑战性的现实世界应用中评估所提出方法的实验结果，即在daytestŞnighttest数据集上进行测试。结果表明，在这两个领域中训练检测器比仅在日图像上训练产生更好的模型，10次运行的平均mAP差异为10.7%（从现在起，平均mAP）。此外，结果表明，我们的假设是正确的，即与下界（仅使用白天图像进行训练）相比，聚集到训练过程中的伪夜间数据集的信息提高了性能。结果显示平均mAP提高了近7%。此外，标准偏差降低了约60%，表明实现了更稳健的模型。此外，将伪夜间数据集添加到训练过程中会产生一个更接近上限而不是下限的模型，平均mAP与上限的差异为4%。

图6显示了在不太具有挑战性的现实世界应用中评估所提出方法的实验结果，即在夜间测试数据集上进行测试。在这种情况下，评估了两种方法，即假夜车和假夜车。再次，伪夜训的结果证实，使用目标域数据训练的模型比使用源域数据训练获得更好的性能（平均mAP差异17.8%）。此外，结果表明，我们的假设是正确的，即伪夜间数据集的信息比仅白天图像数据集更相关（下界）。仅用假夜间图像训练的检测器的平均mAP达到84.7%，比仅在白天数据集中训练时获得的结果高10.5%。此外，结果表明，使用伪夜间数据集进行训练只会导致模型更接近上限而不是下限，平均mAP与上限的差异为7.3%。

使用fakenighttrain和daytrain的结果表明，fakenight数据集可以用来扩充训练的下界数据集。与下限相比，其导致平均mAP提高12.4%。此外，与仅使用伪夜间数据集的训练相比，结果显示平均mAP提高了1.9%，即，用白天图像增强训练数据似乎可以提高结果。这些结果表明，伪夜间数据集的生成和使用为真实白天的图像数据集带来了补充信息，从而产生了更好的模型。

与所提供的结果相证实，采用Student t检验（非配对和两次定制）与每个实验的下限和上限基线成对，所获得结果的确定性至少有99.9%的置信度。

翻译的定性结果如图7所示。该图描绘了一些昼夜翻译，即真实的白天图像和虚假的夜间图像。可以看出，假图像中存在一些伪影，但图像的整体外观看起来不错。尽管伪影对于试图获得非常逼真的图像的模型来说可能是令人不安的，但定量结果表明，伪图像不一定是完美的，以提高检测模型的性能。然而，人们可以推测，更好的假图像可以产生更好的结果。

图8显示了在伪夜车数据集上训练产生的对真实夜间图像的一些检测。可以看出，大多数检测都如预期的那样，即接近地面实况。也可以看到一些错误的检测（假阳性），然而，其中一些只是由于缺少基本事实注释。一段公开的视频5显示了在夜间测试和夜间测试并日间测试数据集上进行的所有检测。

6、结论

这项工作研究了使用目标域（夜间）中没有注释的训练数据集进行跨域（昼夜）汽车检测。为了解决这个问题，我们提出了一种方法来生成自动注释的人工图像数据集，以在所需的域中训练对象检测器。

为了评估我们提出的方法，考虑到真实世界的场景，进行了两个实验的调查。第一个实验研究了所提出的方法在考虑检测器在两个领域（白天和晚上）工作时的性能。结果表明，用目标域（即假夜间）的人工生成的注释图像来增强源域（即白天图像）的注释训练数据可以提高性能，与平均mAP的83.8%±1.5相比，达到90.5%±0.6。这种改进使性能更接近上限，即使用两个领域的真实注释数据训练的模型。第二个实验研究了当考虑仅在目标域（夜间）工作的检测器时所提出方法的性能，该目标域不同于具有可用注释数据的源域（白天）。结果表明，与仅使用源域的可用数据训练的模型相比，使用目标域（即假夜晚）的注释人工生成图像训练模型提高了性能，平均mAP达到84.7%±1.2，而平均mAP为74.2%±1.9。此外，第二个实验的结果表明，用源域数据增强人工生成的图像可以提高目标域的性能，平均mAP提高1.9%。可以推测，数据集包含有关该问题的补充信息。

两个实验都表明，所提出的方法优于各自的下限，表明它们在使用无监督图像到图像翻译改进跨域对象检测方面取得了成功。此外，所提出的方法具有不必能够推广翻译的优点，即能够在训练数据集之外将白天的图像翻译成夜晚的图像。考虑到这一点，当将翻译方法应用于训练集之外的图像时，不必生成高质量的图像。此外，研究结果表明，即使翻译的图像并不完美，并且显示出一些不需要的伪影，该方法也可以从跨域翻译中获益。

未来的工作应该调查该方法与其他GAN衍生模型的性能，并在最终检测结果中验证提高假图像质量的效果。随着图像翻译成为一个热门研究领域，一些方法正在出现，并取得了更好的定性结果，这使它们成为未来工作中所提出方法的候选者。同样，必须测试其他最先进的物体探测器，如YOLO[25]和RetinaNet[26]，但这些探测器超出了这项工作的概念验证范围。最后，为了确保鲁棒性和泛化能力，这里提出的方法应该在具有几个不同检测任务领域的其他场景中进行评估。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

detection