前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GAN-Based Day-to-Night Image Style Transfer forNighttime Vehicle Detection

GAN-Based Day-to-Night Image Style Transfer forNighttime Vehicle Detection

作者头像
狼啸风云
发布2023-10-07 15:41:37
2320
发布2023-10-07 15:41:37
举报

摘要

数据增强在训练基于CNN的检测器中起着至关重要的作用。以前的大多数方法都是基于使用通用图像处理操作的组合,并且只能产生有限的看似合理的图像变化。最近,基于生成对抗性网络的方法已经显示出令人信服的视觉结果。然而,当面临大而复杂的领域变化时,例如从白天到晚上,它们很容易在保留图像对象和保持翻译一致性方面失败。在本文中,我们提出了AugGAN,这是一种基于GAN的数据增强器,它可以将道路行驶图像转换到所需的域,同时可以很好地保留图像对象。这项工作的贡献有三个方面:(1)我们设计了一个结构感知的未配对图像到图像的翻译网络,该网络学习跨不同域的潜在数据转换,同时大大减少了转换图像中的伪影; 2) 我们定量地证明了车辆检测器的域自适应能力不受其训练数据的限制;(3) 在车辆检测方面,我们的目标保护网络在日夜困难的情况下提供了显著的性能增益。与跨领域的不同道路图像翻译任务的竞争方法相比,AugGAN可以生成更具视觉合理性的图像。此外,我们通过使用转换结果生成的数据集训练Faster R-CNN和YOLO来定量评估不同的方法,并通过使用所提出的AugGAN模型证明了目标检测精度的显著提高。

1、介绍

 交通事故的主要原因主要是跟车距离不当和分心驾驶。高级驾驶员辅助系统(ADAS)和自动驾驶汽车中最关键的功能是车辆检测。人们预计,ADAS可以全天(包括昼夜)尽可能准确地检测到主驾驶员周围的车辆。然而,车辆在白天的外观和在夜间的外观大不相同。即使在深度学习时代,如果只采用标准的单目摄像头,日间车辆检测器也无法在夜间正常工作。

 在假设生成(HG)+假设验证(HV)框架下提出了许多车辆检测方法。前者用于生成区域建议,后者应用一对特征提取器和分类器来消除误报。检测被任意视角部分遮挡或看到的车辆是一个巨大的挑战,因为其外观变化很大。该领域的早期工作是通过检测独立车辆部件的组合来完成的。可变形零件模型(DPM)使用HOG特征和潜在SVM,即使在目标被部分遮挡的情况下也能成功处理可变形物体检测,并且在[4]–[7]中已用于日间道路车辆检测。

 绝大多数基于视觉的车辆检测工作都是为了在白天检测车辆。然而,夜间检测车辆很困难,因为即使没有遮挡,也无法始终完全看到车身。当车辆在没有路灯/高速公路灯的情况下行驶时,是否可以完全看到未被遮挡车辆的车身与几个问题有关,例如车身是什么颜色,它有多远,最重要的是,它的车身是否被主车辆或其他车辆的前灯照亮。由于车辆的一些特征,如前照灯和尾灯,在夜间更为明显,一些研究[8]、[9]提出了针对夜间场景进行专门优化的夜间DPM模型。

 基于区域的卷积神经网络(R-CNN)推广的两阶段检测器的成功推动了目标检测的最新进展。YOLO检测器通过实现用于对象检测的端到端一阶段框架而取得突破。如果没有特定的预设规则,基于CNN的检测器可以很容易地检测到在任意视角下看到的车辆。事实上,基于CNN的检测器的泛化能力比传统的机器学习方法要好得多。然而,当向检测器提供来自新部署域的数据时,性能仍然显著下降,而模型在训练过程中没有看到这些数据。在ADAS或自动驾驶汽车中,最复杂的领域转换之一是在白天和晚上之间,因为白天的物体外观(如车辆)与夜间的物体外观非常不同。 如[12]所示,在行人检测中,白天训练和夜间测试的结果明显比一天中同一时间的训练和测试差。然而,大多数包含车辆的数据集都是在白天捕获的。最重要的是,真实驾驶场景中的夜间车辆数据集在公共领域很少。

 克服这个问题的一个天真想法是,当部署在不同于源域的新域中时,应用通常与图像处理操作相关的传统数据增强技术来增强对象检测器的泛化能力。例如,人们可以预期,将这些技术应用于日间训练数据将有助于训练车辆检测器在夜间良好工作。然而,这种转换只能提供有限的合理数据变化。如今,端到端的深度学习解决方案在许多类型的图像翻译任务中被证明是定性和定量有效的。

 最近,由两个相互竞争的网络(即生成器和鉴别器)组成的生成对抗性网络(GANs)已经成为学习随机数据分布生成模型的强大框架。虽然GAN被期望在条件设置中生成图像,但使用GAN在预期场景中根据随机噪声直接生成具有自动生成的边界框的对象检测训练数据听起来仍然像是幻想。相反,学习将标记的图像翻译成另一种风格更可行。

 受先前工作的优点和缺点的启发,在本文中,我们提出了AugGAN,这是一种结构感知的未配对图像到图像的翻译网络,它使我们能够通过将现有的标记数据从其原始域翻译到其他域来直接受益于对象检测。我们特别强调昼夜图像转换,不仅因为夜间检测的重要性,而且因为它是最困难的跨域转换之一。然而,我们的方法也能够处理各种域对。

 在定量分析中,我们的网络是在合成数据集(即SYNTHIA、GTA数据集)上训练的。与其他竞争方法相比,我们网络的域转换结果显著增强了对目标检测器在合成(即SYNTHIA、GTA)和真实世界(即KITTI、ITRI Day、ITRI Night)数据上的应用能力。最后,AugGAN的通用性在于,它可以处理合成到合成(例如,GTA白天到SYNTHIA、GTA日落、GTA下雨和SYNTHIA)、合成到真实(例如,SYNTHIA白天到ITRI夜晚)、真实到真实(如,Cityscape到ITRI夜间),甚至真实到合成(如Cityscape到SYNTHIA)的转换。

 这项工作的初步研究,包括早期版本的AugGAN(AugGAN-1和AugGAN-2)发表在[17]中。本文提供了一个扩展和重新定义的AugGAN模型(本文中称为AugGAN-3),该模型能够在我们使用各种数据集进行的不同跨领域翻译实验中获得更好的定性和定量结果。从真实图像和生成的夜间图像之间的详细夜间检测器训练比较,以及在评估其他竞争方法和我们的模型变化所做的转换结果时的彻底主观评估中,可以明显看出这一点。

2、相关工作

 随着R-CNN的出现,包括Fast R-CNN、Faster R-CNN、R-FCN、MS-CNN等在内的一系列两级检测器不断实现更高的精度。YOLO将物体检测视为一个单一的回归问题,即细胞神经网络如何应用于图像分类。然后,单阶段的多尺度版本SSD证明了显著的改进。YOLO9000中提出的YOLOv2在FPS仍然很高的情况下进一步提高了mAP。在PASCAL VOC和MSCOCO等通用对象检测数据集中,这些检测器不断突破对象检测的极限。

 最近,Pix2Pix在直接配对图像到图像的翻译方面取得了突破。即,生成器学习将给定图像转换为预期输出,例如将标签转换为街道场景,将标签转换成立面,将B/W图像转换为其颜色对应物。然而,在不同的场景(如白天和夜晚)中获得成对的标记图像对在实践中非常困难。最近,未配对的图像到图像翻译方法,如CycleGAN、DiscoGAN和DualGAN,通过引入循环一致性约束,使得在没有配对数据的情况下训练GAN成为可能。CoGAN是一种能够通过使用两个权重共享生成器生成具有一个随机噪声的两个域的图像来处理未配对图像的模型。在CoGAN的基础上,UNIT通过鼓励两个编码器将来自两个域的图像映射到同一潜在空间,进一步引入了潜在空间假设,这在很大程度上增加了翻译的一致性。

 最近,Pix2Pix在直接配对图像到图像的翻译方面取得了突破。即,生成器学习将给定图像转换为预期输出,例如将标签转换为街道场景,将标签转换成立面,将B/W图像转换为其颜色对应物。然而,在不同的场景(如白天和夜晚)中获得成对的标记图像对在实践中非常困难。最近,未配对的图像到图像翻译方法,如CycleGAN、DiscoGAN和DualGAN,通过引入循环一致性约束,使得在没有配对数据的情况下训练GAN成为可能。CoGAN是一种能够通过使用两个权重共享生成器生成具有一个随机噪声的两个域的图像来处理未配对图像的模型。在CoGAN的基础上,UNIT通过鼓励两个编码器将来自两个域的图像映射到同一潜在空间,进一步引入了潜在空间假设,这在很大程度上增加了翻译的一致性。

3、提出的方法

 为了在图像对象得到良好保存的情况下将源域中的图像正确地转换为目标域,我们假设编码信息需要包含(1)源域和目标域之间的相互风格信息,以及(2)给定输入图像的结构信息。

 设X和Y表示两个图像域,

\hat{X}
\hat{X}

\hat{Y}
\hat{Y}

分别表示相应的分割掩码,Z是编码特征空间。我们的网络,如图1所示,由两个编码器Ex:X→ Z组成和Ey:Y→ Z、 两个图像转换生成器,Gx:Z→ Y和Gy:Z→ X,两个解析网,Px:Z→ X和Py:Z→ 分别用于两个图像域的两个鉴别器Dx和Dy。

 我们的网络在前向和后向循环中同时学习图像翻译和分割子任务。以正向循环为例,输入x∈X的潜在向量由Ex提取。然后,对编码向量进行处理,以产生通过Gx的翻译输出y’和通过Px的分割结果

。对于翻译后的输出

,其潜在向量由Ey编码,以通过Gy产生重构图像

x_{rec}
x_{rec}

,并通过Py产生分割结果

 然而,正如将在模型分析部分中讨论的那样,尽管图1中所示的最终结构在定量和定性上都能获得最佳结果,但我们的基本模型AugGAN-1仅在前向循环的图像翻译阶段引入了分割子任务,它已经优于其他竞争模型。表I给出了我们提出的完整网络的详细架构。我们以SYNTHIA为例来描述每层中特征图的大小。在整个工作中,输入图像大小在GAN学习中被重新调整为小5倍。

 A、结构感知编码和分割子任务

 我们的模型通过分割子任务对编码器网络进行正则化,从而积极引导编码器网络提取结构感知特征,使得提取的特征向量不仅包含X域和Y域之间的相互风格信息,还包含输入图像的复杂低级语义特征,这些特征在翻译过程中对图像对象的保存有价值。我们通过实验发现,同时使用交叉熵损失和L1损失可以获得更好的结果,并且前向循环的图像翻译阶段的分割损失可以公式化为:

 其中

表示C类H×W预测的分割概率图

,并且目标分割图

\hat{X}
\hat{X}

表示采用

来使用使用一个1-hot编码。对于多类交叉熵损失

,它可以公式化为

 对于后向循环,图像转换阶段的分割损失为:

 类似地,对于两个循环的重建阶段,两个分割损失可以分别公式化为

B、对抗训练

 我们将对抗性损失应用于映射函数。对于映射函数Ex:X→ Z、 Gx:Z→ Y及其鉴别器Dx,我们将目标表示为:

 其中,Ex和Gx试图生成看起来与来自域Y的图像相似的变换图像Gx(Ex(x)),而Dx旨在根据风格来区分翻译样本Gx(Ex(x))和真实样本Y。相同的映射函数可以应用于后向循环的重建阶段,唯一的区别是

与目标

类似地,对于向后循环的图像平移阶段,映射函数

及其鉴别器Dy在以下不利损失中相关:

 并且前向循环的重建阶段被建模为

C、多任务网络的权重共享

  生成器和解析网络之间的权重共享允许生成器充分利用结构感知特征向量。我们硬共享编码器和生成器解析网络对的残差块,软共享网络对中的去卷积层。软权重共享是通过计算权重差来完成的,该权重差被建模为以零为目标的余弦相似性损失。软重量分担损失函数的数学表达式由下式给出

 其中ωG和ωP分别表示生成器和解析网络的反褶积层形成的权重向量。

正如模型分析部分将定量和可视化地分析的那样,在这项工作中,我们还试验了其他权重共享策略,例如仅硬共享编码器,以及硬共享编码器和解码器。然而,这两种策略只能提供较差的结果。如上所述,通过同时应用硬权重共享和软权重共享来实现最佳结果。

 D、循环一致性

 循环一致性损失已被证明在防止网络在目标域中生成随机图像方面非常有效。我们还在所提出的框架中加强了循环一致性约束,以进一步正则化不适定的无监督图像到图像的翻译问题。损失函数由下式给出:

E、网络学习

 我们共同解决了图像翻译子任务

的学习问题,图像解析子任务

是循环共存的。给出了完整的目标函数如下:

并且我们主要解决:

四、实验结果

 我们利用标记的分割掩码,在上述两个合成数据集上对我们的网络和竞争方法进行了训练,用于定量分析。在SYNTHIA中,仅采用立体声左侧的图像,并且使用序列1以外的序列中的(13072)春季图像和(13208)夜间图像执行昼夜GAN训练。用于探测器训练和测试的数据将来自GANs转换的(4756)春季图像和序列1中的(3740)夜间图像。在利用GTA数据集的实验中,训练集中的所有(40237)个白天和(10277)个夜间图像都参与了GAN训练,并且验证集中的(31010)个白天图像将由GAN变换,以训练将由(10277个)夜间验证图像评估的检测器。

真实世界的日间数据集,如KITTI(7481幅图像)和我们的ITRI Day(25104幅图像)数据集,分别通过从SYNTHIA和GTA学习的GANs进行转换后,用于夜间检测器训练,因此不存在train/val分割。ITRI Night(9366幅图像)用于夜间探测器评估。

 我们应用了一级YOLO和两级Faster R-CNN(基于VGG 16)检测器来评估每个GAN模型在车辆检测方面的昼夜转换效果。除了修改两个检测器以执行单级车辆检测外,所有超参数都与PASCAL VOC挑战训练相同。被视为真阳性的对象的IOU阈值为0.5,其中我们遵循常见目标检测数据集的标准。在分割注释到其检测对应物的转换中,我们在随后的AP估计中排除了高度低于40像素或被遮挡超过75%的边界框。

 对于1280×760(SYNTHIA)图像、1242×375(KITTI)图像和960×540(GTA&ITRI)图像,在NVIDIA特斯拉P100 GPU上运行我们的模型的推理时间分别为0.639s、0.367s和0.293s。值得一提的是,GTA和ITRI数据集的原始图像分辨率为1920×1080,但GPU内存不足。总结所有后续实验的演示视频可从https://youtu.be/CtCwXmhvQMU.

A、合成数据集

 我们首先评估了在合成数据集中使用昼夜转换图像训练夜间探测器的有效性。如表II和表III所示,AugGAN在SYNTHIA和GTA数据集中都优于竞争方法。从视觉上看,AugGAN的转换结果在图像对象保存和防止伪影出现方面明显更好,如图2和图3所示。

 B、KITTI和ITRI夜晚数据集

  KITTI数据集中的标记图像是在多种驾驶场景中收集的,并已被广泛用于评估用于ADAS或自动驾驶的道路上物体检测器的性能,尽管没有夜间版本。然而,由于夜间真实驾驶数据集在公共领域很少,我们使用自收集的ITRI Night作为夜间测试数据集。此外,所有KITTI训练数据都是通过使用不同的GANs进行转换的,这些GANs已经从SYNTHIA或GTA学习了昼夜转换。正如实验结果所示,即使AugGAN是用合成数据集训练的,但AugGAN量化和可视化转换的真实世界数据也能提供更好的结果,如表IV、图4和图5所示。

 C、ITRI白天和夜晚数据集

 我们收集了一个真实的日间驾驶数据集,ITRI Day,主要是在与我们的夜间数据集ITRI Night类似的场景中捕获的。在表五中,实验证明了与其他数据集类似的结果。AugGAN变换的训练图像在数量上优于其他变换的图像,因为使用AugGAN生成的图像中的对象外观更清晰、更清晰和更真实。从SYNTHIA和GAN学习的不同GAN转换的检测器训练数据如图所示。分别为图6和图7。

 E、白天晚上以外的转换

  AugGAN能够在未配对的域对之间学习变换,而任何一个域都可以是真实的或合成的,尽管分割监督是使用AugGAN的先决条件。然而,最低要求是源域中的分段注释,我们将此版本表示为AugGAN-1,稍后将在模型分析部分进行讨论。这个版本增加了学习跨领域自适应在对象检测方面的灵活性。如图6所示,9,我们的模型可以学习从合成到合成(例如,GTA白天到合成,GTA日落,GTA雨和合成),从合成到真实(例如,合成白天到ITRINight),从真实到真实(如,Cityscape到ITRI Night),甚至从真实到合成(如,城市景观到合成)的图像到图像的转换。值得一提的是,上述章节中的所有定量结果都是由AugGAN-3实现的,它需要来自两个领域的细分监督。

F、路上夜间车辆检测结果分析

由于车辆检测器预计在真实驾驶场景中发挥作用,我们展示了使用三种不同类型的训练数据(分别由CycleGAN、UNIT和AugGAN转换的KITTI-D2N-S)训练车辆检测器(单类Faster R-CNN)的一些检测结果。如图6所示,10,当车辆看起来很暗时,通过使用CycleGAN和UNIT生成的KITTI昼夜变换图像训练的夜间车辆检测器通常会提供较差的结果,因为这两个模型都无法保持物体轮廓。通过使用AugGAN变换的相同图像训练的相同检测器可以在数量上获得更好的检测结果,因为在变换的图像中,较少的伪影对检测器学习车辆外观的本质是有害的。

 G、合成夜晚训练检测器和真实夜晚图像

 为了比较用生成的夜间图像和真实图像训练的检测器,我们用从ITRI Night1数据集随机采样的图像(即2k、4k、4.5k等)训练YOLO检测器,该数据集是在与ITRI Night相同的场景下捕获的,包含9k个图像,如表VI所示。然而,CNN中的训练是不确定的,因为每次产生的AP都会略有不同。因此,我们只需进行五次每次训练,并报告平均结果。定量结果表明,由CycleGAN(从SYNTHIA学习)用(ITRI Day to night transformed images训练的YOLO车辆检测器的AP介于使用4k和4.5k真实夜间图像获得的AP之间。 AugGAN(从SYNTHIA学习)的表现与9k真实夜间图像的表现类似。此外,为了知道当提供较少的昼夜图像来训练夜间车辆检测器时,AugGAN的优势是否仍然存在,我们进一步从AugGAN和CycleGAN分别生成的昼夜图像中随机采样9k幅图像,并报告平均AP。在这个实验中,AugGAN和CycleGAN到达的AP接近于使用4k和2K真实夜间图像完成的AP。粗略地说,就实现相同AP所需的真实夜间图像数量而言,AugGAN大约是CycleGAN的两倍。可以得出结论,使用昼夜变换图像可以在训练夜间车辆检测器时充分利用常见的日间训练数据,并且AugGAN在昼夜域自适应方面优于CycleGAN。

 5、 模型分析与主观评价

 为了探索一种更好的架构,以实现视觉上更好、定量上的效益,我们针对(1)重量分担策略和(2)损失函数进行了一些分析。这些实验都是在SYNTHIA数据集上完成的,并逐渐使我们在其他数据集中获得最佳结果。此外,为了全面评估我们与其他竞争模型的结果的视觉质量,我们对同一数据集进行了语义分割分析和主观评估。

A、权重共享策略比较

 我们的网络设计基于这样的假设,即通过适当的权重共享,提取的各个层的语义分割特征可以作为图像到图像翻译的辅助正则化。因此,确定适当的重量分配政策成为我们设计中最重要的因素。神经网络中的权重共享机制大致可分为软权重共享[36]和硬权重共享。前者最初是为正则化而提出的,可以应用于网络压缩[37]。后者是神经网络中最常用的多任务学习方法,可以追溯到[38]。最近,UNIT[31]在他们的模型中成功地应用了硬权重共享,用于生成具有类似高级语义的图像。

 在我们最初的实验中,硬权重共享被应用于我们的多任务网络的编码器,但两项任务都失败了。然后,我们试图在编码器和解码器上应用硬权重共享,但结果表明,两个网络不能同时优化。如表VII和图11所示,导致我们获得最佳结果的策略有两个:(1)硬共享编码器和生成器解析网对的残差块,(2)同一网对中的软共享反褶积层。这一设置是基于广泛的实验决定的,在这个过程中,我们意识到这两种策略对我们的网络优化都是不可或缺的。 

 B、损失函数分析

在我们的初始模型AugGAN-1中,解析网络在前向循环的(昼夜)图像翻译阶段被单独使用并联合优化。即仅需要源域中的分段注释。因此,仅使用分割损失中的等式1,并且图9中的SYNTHIA白天到ITRI夜晚和Cityscape到ITRINight的情况由该版本完成。

由于在SYNTHIA和GTA中的白天和夜晚场景中都可以使用分割注释,因此分割子任务也可以应用于后向循环的图像转换阶段(即,夜间到白天)。即同时涉及等式1和等式2。我们将该版本表示为AugGAN-2,它是在我们之前的工作[17]中与AugGAN-1一起提出的。

 然后,我们注意到,在两个周期的图像平移和图像重建阶段,图像结构都得到了很好的保留,因此分割子任务可以进一步应用于重建阶段。换言之,在第III.A节中引入的四个分割损失都涉及到训练过程中。此外,鉴别器可以应用于重建的图像,以区分重建的白天/晚上图像与真实的白天/夜晚图像之间的差异。即,方程9中的两个额外的对抗性损失

涉及训练。此版本表示为AugGAN-3。

  从表VIII中可以看出,很明显,AugGAN-1在前向循环中只添加了分割子任务来指导图像翻译(采用所提出的权重共享策略),其结果已经优于CycleGAN和UNIT。AugGAN-2通过在两个周期中引入分割来规范图像翻译阶段,从而进一步提高了准确性。最后,AugGAN-3实现了最佳的定量结果,它执行分割子任务来规范两个周期中的图像平移和重建阶段,并对平移和重建的图像应用对抗性损失。如图12所示,从视觉上可以明显看出,AugGAN-2比AugGAN-1更好,而AugGAN-3是最好的,因为变换后的图像更清晰、更清晰,看起来更真实。值得一提的是,实验部分的所有定量分析都是使用AugGAN-3进行的。 最后,还分析了语义分割子任务和鉴别器在重建阶段的影响。在没有前者的情况下,YOLO和Faster R-CNN的检测准确率分别为39.1和72.4。如果没有后者,则只能达到39.3和72.9。简言之,这两种损失对我们网络的优化至关重要,使用这两种方法将使我们获得更好的结果。

 C、跨域语义分割分析

  我们的模型已被证明能有效提高夜间车辆检测的准确性。为了定量评估整个变换图像的质量,我们还采用FCN8s(基于VGG16)[39]来报告FCN得分,就像Pix2Pix和CycleGAN所做的那样。直觉是,如果昼夜变换的图像是真实的,那么FCN8可以通过它们进行训练,以在真实的夜间图像上获得更好的分割结果。该分析是在SYNTHIA数据集中完成的。如表IX所示,AugGAN在每类精度、mIoU和fwIoU方面优于CycleGAN和UNIT。在我们的实验中,图像都被重新调整为600×600,并且FCN8使用SGD进行100k次迭代训练,学习率为1e-10,动量为0.9。

D、主观评价

 为了了解视觉上更好的昼夜转换结果是否与更高的夜间检测精度呈正相关,我们进行了主观评估,为我们的方法和其他竞争方法提供了视觉评级。在涉及47名随机非专家观察员的情况下,这些问题旨在证明与后续检测性能直接相关的两个因素。第一个是物体的保存水平。二是风格传递质量。前一个问题旨在了解对象是否被成功保存。否则,相应的GAN模型的跨域自适应能力因此是值得怀疑的。后一种是为了确保白天的图像被风格转换为夜间的外观,而没有明显的伪影,因为理论上可能物体被很好地保存了下来,但图像没有被转换为预期的夜间风格。

在SYNTHIA案例和GTA案例中,来自CycleGAN、UNIT、AugGAN的day night转换结果视频剪辑与原始的day同时显示。根据上述两个因素,观察者预计会对每个视频片段进行评分,评分范围从一到五(非常低、相对低、中等、相对高和非常高)。

对于KITTI情况,提供图像而不是视频剪辑,因为KITTI图像是从真实驾驶视频中采样的。在我们的实验设计中,其中五个是随机选择的,每个都分别由CycleGAN、UNIT和AugGAN处理。此外,每个GAN模型有两个版本。每个KITTI图像由GAN模型中的一个进行处理,GAN模型分别从SYNTHIA和GTA数据集学习昼夜变换。

对于ITRI Day数据集,每个GAN模型从两个合成数据集学习,再次对其进行处理。类似地,每个处理过的图像以及白天的对应图像都会显示给观察者。

在每次评估中,我们计算每次比较的平均意见得分(MOS)。如表X所示,我们的AugGAN始终优于UNIT和CycleGAN,因为解析网络会引导(图像翻译)生成器不改变图像结构,所以在转换中保留了对象。UNIT可以提供比CycleGAN更好的视觉效果,因为它试图在转换中保留高级语义。然而,它们有时无法保持大型物体的精细纹理,因此在随后的AugGAN车辆探测器分析中落后于AP。 GTA数据集比SYNTHIA更真实。这解释了为什么在检测器训练中,使用从GTA学习的GANs转换数据集可以在一级和两级检测器中获得更好的检测器训练结果。如表XI所示,尽管GTA的夜景比SYNTHIA的夜色暗,但大多数观察者仍然支持AugGAN的变换结果,因此他们有时难以判断变换在物体外观细节上是否良好。

6、结论和将来的工作

 在这项工作中,我们提出了AugGAN,一种用于实现车辆检测领域自适应的非配对图像到图像翻译网络。由于更好的图像对象保存,我们的方法在实现更高的夜间车辆检测精度方面在数量上超过了竞争方法。因此,公共领域的大多数日间车辆数据集在夜间车辆检测器的开发中变得有价值。AugGAN的通用性在于,它还可以处理从白天、夜晚、日落、下雨等不同领域的合成到合成、合成到真实、真实到真实以及真实到合成的转换。在未来,我们将尝试将随机噪声向量显式编码为我们的结构感知潜在向量,以便在执行不成对的图像到图像转换时获得多模态,例如从白天到晚上,同时图像对象仍然得到很好的保存。 通过这种方式,夜间车辆检测器可以学习在同一域中不同程度的环境光下更好地检测车辆。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
    • 3、提出的方法
      •  A、结构感知编码和分割子任务
      • B、对抗训练
      • C、多任务网络的权重共享
      •  D、循环一致性
      • E、网络学习
      • A、合成数据集
      •  B、KITTI和ITRI夜晚数据集
      •  C、ITRI白天和夜晚数据集
      •  E、白天晚上以外的转换
      • F、路上夜间车辆检测结果分析
      •  G、合成夜晚训练检测器和真实夜晚图像
      • A、权重共享策略比较
      •  B、损失函数分析
      •  C、跨域语义分割分析
      • D、主观评价
  • 四、实验结果
  •  5、 模型分析与主观评价
  • 6、结论和将来的工作
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档