前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Progressive Domain Adaptation for Object Detection

Progressive Domain Adaptation for Object Detection

作者头像
狼啸风云
发布2023-10-07 15:38:05
2890
发布2023-10-07 15:38:05
举报

摘要

 最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵,但当对来自不同分布的图像进行测试时,监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而,领域之间的巨大差距可能会使适应成为一项具有挑战性的任务,从而导致不稳定的训练过程和次优结果。在本文中,我们建议用一个中间域来弥合领域差距,并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题,我们采用对抗性学习来在特征级别对齐分布。此外,应用加权任务损失来处理中间域中的不平衡图像质量。 实验结果表明,我们的方法在目标域上的性能优于最先进的方法。

1、介绍

 目标检测是一项重要的计算机视觉任务,旨在对图像中的目标进行定位和分类。近年来,神经网络的发展显著提高了目标检测的性能。然而,这种深度模型通常需要大规模的注释数据集来进行监督学习,并且在训练和测试领域不同时不能很好地推广。例如,域可以在场景、天气、照明条件和相机设置方面有所不同。这种领域差异或领域偏移可能导致不利的模型泛化问题。尽管使用来自目标域的额外训练数据可以提高性能,但收集注释通常是耗时且劳动密集的。

 无监督域自适应方法解决了域偏移问题,而不在目标域中使用地面实况标签。给定源域注释,目标是以无监督的方式对齐源和目标分布,这样模型就可以在无需注释的情况下推广到目标数据。在图像分类的背景下开发了许多方法,而在语义分割和对象检测等更复杂的任务上投入的精力较少。这类领域适应任务非常具有挑战性,因为源领域和目标领域之间通常存在显著差距。

 在本文中,我们的目标是简化对齐不同领域的工作。受[10]通过对齐中间特征表示来解决域移位问题的启发,我们利用了位于源和目标之间的中间域,从而避免了在具有显著间隙的两个分布之间直接映射。具体而言,源图像首先通过图像到图像的翻译网络进行转换,以具有与目标图像相似的外观。我们将包含合成目标图像的域称为中间域。然后,我们通过对齐源分布和中间分布来构建中间特征空间,这比对齐最终目标更容易。一旦这个中间域对齐,我们就将其用作进一步连接到目标域的桥梁。 因此,通过所提出的通过中间域的渐进自适应,源域和目标域之间的原始对齐被分解为两个子任务,这两个子任务都以较小的域间隙解决了一个更容易的问题。

 在对齐过程中,由于中间空间是以无监督的方式构建的,因此一个潜在的问题是,每个合成目标图像可能基于平移的质量做出不相等的贡献。为了减少低质量翻译图像的异常值影响,我们在自适应方法中提出了一种加权版本,其中基于到目标分布的距离来确定权重。也就是说,更接近目标域的图像应该被认为是更重要的样本。在实践中,我们在图像翻译模型中获得与鉴别器的距离,并将其作为任务损失的权重纳入检测框架。

 我们使用大量数据集,包括KITTI、城市景观、雾状城市景观和BDD100K,在各种适应场景中评估我们的方法。我们在多个真实世界领域差异案例上进行了实验,如天气变化、相机差异和对大规模数据集的适应。通过所提出的渐进自适应,我们证明了我们的方法在目标域的精度方面优于最先进的算法。该工作的主要贡献总结如下:1)我们在所提出的自适应框架中引入了一个中间域,以实现用于对象检测的渐进特征对齐;2)我们基于中间域中样本的重要性,开发了域对齐过程中的加权任务损失,3)我们在各种目标检测场景下进行了广泛的自适应实验,并取得了最先进的性能。

2、相关工作

目标检测

 最近,最先进的目标检测方法主要基于深度卷积神经网络(CNNs)。根据网络转发管道的不同,这些方法可以分为基于区域建议的检测器和单次检测器。基于区域建议的方法对候选区域的可变集合执行预测。Fast R-CNN应用选择性搜索来获得区域建议,而Fast R-CNN建议学习区域建议网络(RPN)来加速建议生成过程。为了进一步减少提案生成的计算需求,单次方法使用一组固定的预定义锚盒作为提案,并直接预测每个锚盒的类别和偏移。尽管这些方法实现了最先进的性能,但这种成功取决于大量的标记训练数据,这需要高昂的劳动力成本。 此外,这些方法可能会超出训练领域,这使得它们很难推广到许多真实世界的场景中。因此,视觉界最近开始对将领域自适应技术应用于物体检测表现出极大的兴趣。

域适配

 域自适应技术旨在解决目标域中具有未标记或弱标记图像的源域和目标域之间的域偏移。近年来,对抗性学习在领域适应方法中发挥了关键作用。自从领域对抗性神经网络(DANN)出现以来,已经提出了许多工作来利用对抗性学习来对齐两个领域之间的特征分布。此外,基于未配对的图像到图像转换方法,几种方法试图在像素空间中执行对准。对于图像分类,PixelDA通过学习一对多映射来合成目标域中的额外图像。对于语义分割,CyCADA和AugGAN都设计了一个类似CycleGAN[36]的网络来将图像从源域转换到目标域。

 在这项工作中,我们观察到,在不知道每个生成的样本与目标域之间的距离的情况下简单地应用图像翻译可能会导致无效的自适应。为了解决这个问题,我们首先引入了一个中间域来减少映射两个明显不同的分布的工作量,然后采用具有样本权重的两阶段对齐策略来考虑样本质量。

3、渐进域适配

 我们建议将域自适应问题分解为两个子任务,由位于源分布和目标分布之间的合成域桥接。利用这一综合领域,我们采取了一种渐进的适应策略,通过中间领域逐步缩小差距。我们将源结构域、合成结构域和靶结构域分别表示为S、F和T。从标记域S到未标记域T的传统适应表示为S→ T、 而所提出的自适应子任务表示为S→ F和F→ T.我们的渐进适应框架概述如图2所示。我们将在以下章节中讨论拟议的适应网络和渐进学习的细节。

3.1、特征空间的适配

 为了在特征空间中对齐分布,我们提出了一个由两个分量组成的深度模型;检测网络和鉴别器网络,用于通过对抗性学习进行特征对准。

检测网络

我们采用Faster R-CNN框架进行目标检测任务,其中检测器具有基本编码器网络E来提取图像特征。给定图像I,提取特征图E(I),然后将其输入两个分支:区域建议网络(RPN)和感兴趣区域(ROI)分类器。我们将这些分支称为检测器,如图2所示。为了训练检测网络,损失函数

定义为:

其中,

分别是RPN、分类器和边界框回归的损失函数。我们在这里省略了RPN和ROI类别的详细信息,因为我们专注于解决领域转移问题。鼓励读者参考原始论文[24]了解更多详细信息。

域鉴别器

为了对齐两个域之间的分布,我们在编码器

E
E

之后添加了一个域鉴别器

D
D

。该分支的主要目的是区分特征

是来自源域还是目标域。通过该鉴别器,得到每个像素属于目标域的概率为

。然后,我们基于输入图像的域标签d将二进制交叉熵损失应用于

,其中来自源分布的图像被赋予标签

d=0
d=0

,并且目标图像接收标签

d=1
d=1

鉴别器损失

可以表示为:

 对抗学习

 对抗性学习是使用[6]中提出的梯度反向层(GRL)来学习领域不变特征

来实现的。GRL位于鉴别器和检测网络之间,仅影响反向传播中的梯度计算。在反向传播过程中,GRL否定流经的梯度。结果,编码器E接收到迫使其在相反方向上更新的梯度,这使鉴别器损失最大化。这允许E产生欺骗鉴别器D的特征,而D试图区分特征的域。对于自适应任务

、 给定源图像

和目标图像

,自适应检测模型的总体最小-最大损失函数定义如下:

 其中

是应用于鉴别器损失的权重,用于平衡损失。

 3.2、渐进适配

 对齐两个远域之间的特征分布是具有挑战性的,因此我们引入了一个中间特征空间来简化自适应任务。也就是说,我们不是直接解决源域和目标域之间的差距,而是逐步对由中间域桥接的目标域进行自适应。

 中间域

从源域图像构建中间域,以在像素级上合成目标分布。我们应用图像到图像翻译网络CycleGAN来学习将源域图像映射到目标域图像的函数,反之亦然。由于地面实况标签仅在源域中可用,因此我们仅考虑在训练CycleGAN之后从源图像到目标域(即合成目标图像)的转换。

合成目标图像已被用于辅助领域自适应任务,作为额外增强的目标训练数据。与这些方法不同的是,我们将这组合成图像定义为单个域F,通过对抗性学习将标记域S与未标记域T连接起来。这背后的一个动机是,源域S和F之间的相似性是图像内容,仅在视觉外观上不同,而F和目标域T在图像细节上不同,但在像素级别上具有相似的分布。因此,这个合成域“位于”源域和目标域之间,因此有助于减少S和T之间的大域差距的适应困难。图3是使用KITTI和Cityscapes数据集进行特征空间可视化的一个示例。 该图显示了通过t-SNE将特征从E(I)映射到低维二维空间的分布图。该图表明,在特征空间中,合成域F(蓝色)位于KITTI(红色)和Cityscapes(绿色)分布之间。

 适配过程

 我们的域自适应网络包括从标记的源域S获得知识,然后通过对齐两个分布将该知识映射到未标记的目标域T,从而解决自适应任务S→ T、 即通过本文中的(3)。为了在对齐过程中利用中间特征空间,我们的算法将问题分解为两个阶段:S→ F和F→ T、 如图2a)和b)所示。在第一阶段,我们使用S作为标记域,适应没有标记的F。由于图像内容中S和F之间的潜在相似性,该网络专注于在像素级别上相对于外观差异对齐特征分布。在对齐S和F之间的像素差异后,我们将F作为监督的源域,并将T作为所提出方法的第二阶段。 在这一步骤中,模型可以利用第一步中的外观不变特征,并专注于调整对象和上下文分布。总之,所提出的渐进学习将适应任务分为两个子任务,并在每个适应阶段更加关注个体差异。

加权监督

我们观察到合成图像的质量差异很大。例如,一些图像在翻译时无法保存对象的细节或包含伪影,并且这些失败案例可能与目标分布有更大的距离(示例见图4)。这种现象也可以在图3中的特征空间中可视化,其中一些蓝点远离源域和目标域。

结果,当在F期间对F执行监督检测学习时→ T、 这些缺陷可能会对我们的检测模型造成混淆,导致跨域的错误特征对齐。为了缓解这个问题,我们提出了一种基于合成样本到目标分布的距离的重要性加权策略。具体而言,距离目标分布更远的合成异常值将比距离目标域更近的合成异常值更不受关注。 我们通过从目标域鉴别器

获得预测的输出分数来获得权重。该鉴别器被训练为相对于目标分布在源图像和目标图像之间进行区分,其中最佳鉴别器通过以下方式获得:

 其中I是通过CycleGAN生成的合成目标图像,

分别是I属于源域和目标域的概率。这里,Dcycle(I)的较高分数表示更接近目标域的分布,从而提供更高的权重。另一方面,离目标域更远的低质量图像将被视为异常值,并接收较低的权重。对于每个图像I,重要性权重定义为:

 然后,当在第二阶段从带有标签的合成图像中学习时,我们将该权重应用于(1)中的检测损失函数。因此,给定图像

的最终加权目标函数基于(3)重新公式化为

4、实验细节

适配网络

 在我们的实验中,我们采用VGG16作为Faster R-CNN检测网络的主干,遵循[3]中的设置。我们使用4个卷积层设计鉴别器网络D,滤波器大小为3×3。前3个卷积层有64个通道,每个通道后面都有一个α设置为0.2的泄漏ReLU[20]。最终域分类层有1个通道,用于输出二进制标签预测。我们的合成域是通过在源域和目标域图像上训练CycleGAN生成的。

训练细节

 在应用所提出的自适应方法之前,我们使用具有ImageNet预训练权重的源域图像来预训练检测网络。在训练自适应模型时,我们使用源域中的所有可用注释,包括训练和验证集。我们使用随机梯度下降(SGD)优化网络,学习率为0.001,权重衰减为0.0005,动量为0.9。我们使用基于验证集的

来平衡鉴别器损失和检测损失。培训期间批量大小为1。所提出的方法是用Pytorch实现的,并且使用一个具有12GB内存的GTX 1080 Ti GPU来训练网络。

4.2、数据集

KITTI

KITTI数据集[8]包含在城市、高速公路和农村地区驾驶时拍摄的图像。训练集中总共有7481张图像。在所提出的实验中,数据集仅用作源域,并且我们使用完整的训练集。 Cityscapes

城市景观数据集是一组具有城市街道场景的图像。它包括实例分割注释,我们将其转换为实验的边界框。它包含2975个训练图像和500个验证图像。我们在第4.3节中使用城市景观和KITTI数据集来评估跨相机自适应,并将我们的结果与最先进的方法进行比较。

Foggy Cityscapes

顾名思义,雾状城市景观数据集[26]是建立在城市景观数据集中的图像基础上的。该数据集使用城市景观中提供的深度图模拟雾天气,其中有三个雾天气级别。模拟过程可以在原始论文中找到。第4.4节显示了在该模拟数据集上进行的跨天气适应实验。 BDD 100K

BDD 100k数据集由100k个图像组成,这些图像分为训练集、验证集和测试集。有70k个训练图像和10k个带有可用注释的验证图像。该数据集包括不同的有趣属性;有6种类型的天气,6种不同的场景,3个类别的时间和10个对象类别的边界框注释。在我们的实验中,我们提取了BDD100k的一个子集,图像标记为白天。它包括36728张训练图像和5258张验证图像。我们使用该子集来证明使用第4.5节中提出的方法从较小的数据集Cityscapes到大规模数据集的适应性。

4.3、跨相机适配

 不同的数据集显示出不同的特征,如场景、对象和视点。此外,潜在的相机设置和机制也可能导致视觉外观和图像质量的关键差异。这些差异就是领域转移发生的地方。在这个实验中,我们展示了从不同相机拍摄的图像之间的适应,以及不同内容的差异。KITTI[8]和Cityscapes[4]数据集分别作为源和目标进行跨相机自适应实验。在训练过程中,使用KITTI训练集中的所有数据和来自Cityscapes数据集的原始训练图像,并在Cityscape验证集上进行进一步评估。在表1中,我们显示了根据平均精度(AP)对汽车类别进行评估的实验结果。 与在特征空间中学习适应的最先进的方法[3]相比,我们的基线表示为“我们的(w/o合成)”,使用我们自己的实现来匹配它们的性能。

 为了验证我们的方法,我们还使用几种设置进行了消融研究。首先,我们展示了利用合成领域信息的好处。当我们直接扩充训练集中的合成数据并将其包括在源域中以执行特征级自适应时,表示为“我们的(合成扩充)”,与[3]相比,性能增益为2.1%。在所提出的方法中,通过采用我们的带有重要性权重的渐进训练方案,我们表明我们的模型将AP进一步提高了5.4%。此外,我们还展示了加权任务损失在平衡合成图像质量不均匀方面的优势。在表2中,我们展示了使用不同固定权重的分析和我们的重要性加权方法。我们的方法基于与目标分布的距离来动态地确定每个图像的权重。 与不使用任何权重的权重(即,权重等于1)相比,我们的重要性权重将AP提高了1.7%,并且比使用固定权重的其他权重表现更好。总体而言,我们表明,我们的模型可以减少相机造成的域偏移问题以及两个不同数据集之间的其他内容差异,并实现最先进的性能。

4.4、天气适配

 在现实世界的场景中,监督对象检测模型可以应用于不同的天气条件,在这些条件下,它们可能没有足够的知识。然而,很难在每种天气条件下获得大量的注释供模型学习。本节研究从晴朗天气到多雾环境的天气适应。Cityscapes数据集[4]和Foggy Cityscape数据集分别用作源域和目标域。

表3显示,我们的方法减少了天气条件下的领域差距,与最先进的方法相比表现良好。当在我们的渐进适应过程中引入合成图像时,与基线方法相比,mAP提高了10%。我们注意到,目标雾状城市景观数据集基本上包含与源城市景观数据集中相同的图像,但具有合成雾。因此,通过图像翻译的合成目标域F已经紧密地分布到目标域,并继承信息标签供网络学习。考虑到从合成领域学到的这些信息,我们的方法和合成增广方法都接近预言的结果。

4.5、向大规模数据集上的适配

 多年来,数码相机发展迅速,在现代世界,收集大量图像并不是一项艰巨的任务。然而,在为监督学习方法构建数据集时,对收集的图像进行标记是一个主要问题。在这个实验中,我们检查了从相对较小的数据集到包含不同属性的大型未标记域的适应性。我们表明,我们的方法可以从现有资源中获得更多,并使其适应复杂的环境。为此,我们分别使用Cityscapes和BDD100k数据集作为源域和目标域。我们选择BDD100k数据集的一个子集作为我们的目标域,并将城市场景视为适应因素,因为城市景观数据集中只存在白天数据。 

 从表4所示的基线和oracle结果中,我们可以观察到源域和目标域之间的困难和显著的性能差距。在不使用合成数据的情况下,网络更难适应多样化的数据集,在使用[3]中的方法直接对齐源域和目标域后,仅提高了0.4%。当将合成数据引入源训练集时,该模型学会更好地推广到目标域,并将性能提高了2.5%。最后,我们的方法通过利用中间特征空间逐渐适应目标域,与基线方法相比,mAP增益为3.1%[3]。我们在这个实验中表明,我们的渐进适应可以从现有知识中挤出更多的果汁,并更好地推广到多样化的环境中,这是现实世界应用中的一个关键问题。 定性结果如图5所示,补充材料中提供了更多结果。

 5、结论

 在本文中,我们提出了一种渐进自适应方法,该方法使用中间域来弥合领域差距,将更困难的任务分解为两个差距较小的更容易的子任务。我们通过将源图像转换为目标图像来获得中间域。使用这个域,我们的方法通过首先从源域适应到中间域,然后最终适应到目标域,逐步解决适应子任务。此外,我们在方法的第二阶段引入了加权损失,以平衡中间域中的不同图像质量。实验结果表明,与最先进的方法相比,我们的方法表现良好,可以进一步减少各种场景下的域差异,如跨相机情况、天气条件和对大规模数据集的适应。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
    • 目标检测
      • 域适配
      • 3、渐进域适配
        • 3.1、特征空间的适配
          •  3.2、渐进适配
            •  中间域
            •  适配过程
            • 适配网络
            • 训练细节
        • 4、实验细节
          • 4.2、数据集
            • 4.3、跨相机适配
              • 4.4、天气适配
                • 4.5、向大规模数据集上的适配
            •  5、结论
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档