前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SOOD: Towards Semi-Supervised Oriented Object Detection

SOOD: Towards Semi-Supervised Oriented Object Detection

作者头像
狼啸风云
发布2023-10-07 15:15:17
2710
发布2023-10-07 15:15:17
举报

摘要

半监督物体检测,旨在探索未标记的数据以提高物体检测器,近年来已成为一项活跃的任务。然而,现有的SSOD方法主要集中在水平方向的物体上,而对航空图像中常见的多方向物体则没有进行探索。本文提出了一个新颖的半监督定向物体检测模型,称为SOOD,建立在主流的伪标签框架之上。针对空中场景中的定向物体,我们设计了两个损失函数来提供更好的监督。针对物体的方向,第一个损失对每个伪标签-预测对(包括一个预测和其相应的伪标签)的一致性进行了规范化处理,并根据它们的方向差距进行了适应性加权。第二种损失侧重于图像的布局,对相似性进行规范化,并明确地在伪标签和预测的集合之间建立多对多的关系。这样的全局一致性约束可以进一步促进半监督学习。我们的实验表明,当用这两个提议的损失进行训练时,SOOD在DOTA v1.5基准的各种设置下超过了最先进的SSOD方法。

1、介绍

足够的标记数据对于完全监督下的物体检测至关重要。然而,数据标注的过程既费时又费钱。最近,半监督物体检测(SSOD)引起了越来越多的关注,其中目标检测器是通过标注数据以及容易获得的未标注数据学习的。现有的SSOD方法主要侧重于检测一般场景中具有水平边界框的目标。然而,在更复杂的场景中,如空中场景,目标通常需要用定向边界框来注释。考虑到定向框的标注成本较高、 半监督定向目标检测是值得研究的。

与一般场景相比,空中场景中的物体(或简称空中物体)的主要特征有三个方面:任意方向、小尺度和聚集,如图1所示。主流的SSOD方法是基于由教师模型和学生模型组成的伪标签框架。教师模型是学生模型在历史训练迭代中的指数移动平均数(EMA),为未标记的图像生成伪标签。因此,学生模型可以从有标签和无标签的数据中学习。为了将该框架扩展到定向目标检测,我们认为 以下两个方面需要解决:  1)由于方位是多方位物体的一个基本属性,如何在引导学生时使用方位信息是至关重要的。2)由于空中物体通常是密集的、有规律的分布,我们可以利用布局来促进每一对目标的学习,而不是单独对待它们。

本文提出了第一个半监督导向的物体检测方法,称为SOOD。继[50]之后,SOOD建立在密集伪标签框架之上,其中伪标签是从原始像素预测(包括盒坐标和置信度分数)中过滤出来的。关键的设计是两个简单而有效的损失,它们在学生和教师的预测之间执行实例级和集合级的一致性。

具体来说,考虑到伪标签预测对的信息量不尽相同,我们提出了旋转感知自适应加权(RAW)损失。它利用每个对的方向差距,从某种程度上反映了这个样本的难度,来动态地对相应的损失进行加权。通过这种方式,我们可以柔和地挑选那些更有用的监督信号来指导学生的学习。此外,考虑到航拍图像的布局可以潜在地反映组件的整体状态(如物体的密度和位置分布)并有助于检测过程,我们提出了全局一致性(GC)损失。它从全局的角度来衡量伪标签和预测的相似性,可以减轻伪标签中噪声的干扰,并隐含地使不同物体之间的相互关系正规化。

我们在DOTA-v1.5这个流行的空中目标检测基准的各种设置下对SOOD进行了广泛的评估。与最先进的SSOD方法(使用相同的定向目标检测器)相比,我们的SOOD在使用10%、20%、30%和满标数据时取得了一致的性能改进。消融研究也验证了这两种损失的有效性。综上所述,本文对面向对象检测的半监督学习做了早期探索。通过分析面向目标与一般目标的不同特征,我们提出了两个新的损失函数,以使伪标签框架适应这一任务。我们希望这项工作能够为半监督的面向目标检测提供一个良好的起点,并作为未来研究的一个简单而有力的基线。

2、相关工作

半监督目标检测。在过去的几年里,半监督学习(SSL)在图像分类中取得了令人印象深刻的表现。这些工作通过使用伪标签、一致性正则化、数据增强甚至对抗性训练来利用未标记的数据。与半监督图像分类相比,SSOD需要实例级预测和额外的边界框回归子任务,这使得它更具挑战性。在[28,51]中,伪标签是由不同增强的数据预测组合而成的,CSD只利用了水平翻转增强,并应用一致性损失来约束模型,但弱增强限制了其性能。STAC用标记的数据训练一个目标检测,并在未标记的数据上用这个检测器离线生成伪标签。之后,一些研究采用平均教师的EMA,在每次训练迭代后更新教师模型。ISMT通过融合当前的伪标签和历史标签获得更准确的伪标签。无偏教师用焦点损失代替交叉熵损失来解决类的不平衡问题,并通过阈值过滤伪标签。软教师使用分类分数来自适应地加重每个伪箱的损失,并提出了箱体抖动来选择可靠的伪标签。Unbiased Teacher v2 采用无锚检测器,并使用不确定性预测来选择回归分支的伪标签。密集教师用密集的像素级伪标签取代了后处理的实例级伪标签,成功地消除了阈值和后处理超参数的影响。然而,这些工作都不是为空中场景中的定向目标检测而设计的。本文旨在填补这一空白,为未来的研究提供一个起点。

定向物体检测。与一般的物体检测器不同,定向物体检测器用定向边界框(OBBs)表示物体。典型的定向物体包括空中物体和多方位场景文本。近年来,为了提高这一领域的性能,人们提出了许多定向目标的检测方法。CSL将角度回归问题制定为一个分类任务,以解决边界外的问题。R3Det在第一阶段预测水平边界框(HBBs)以提高检测速度,并在第二阶段对准特征来预测定向物体。Oriented R-CNN提出了一个简洁的多方位区域提议网络,并使用中点偏移量来表示任意方位的物体。ReDet提出了一个旋转变异检测器,从旋转变异中提取旋转变异,用于精确的空中物体检测。Oriented RepPoints提出了用于自适应点学习的质量评估模块和样本分配方案,它可以从相邻物体中获得非轴特征,并忽略背景噪声。与上述侧重于监督范式的工作不同,本文对半监督导向的物体检测进行了早期探索,它可以降低 解释的成本,并提高无标记数据的检测器。

3. 前言

在本节中,我们初步重温了SSOD和Monge-Kantarovich最优传输理论中的主流伪标签范式。

3.1、伪标签范式

伪标签框架继承了平均教师[36]结构的设计,它由两部分组成,即教师模型和学生模型。教师模型是学生模型的指数移动平均(EMA)。它们是通过以下步骤反复学习的。1)为一批未标记的数据生成伪标签。伪标签是从教师的预测中筛选出来的,例如,盒子的坐标和分类分数。同时,学生对该批数据中的有标签和无标签的数据进行预测。2)计算学生模型预测的损失。它由两部分组成,无监督损失Lu和监督损失Ls。它们分别针对带有伪标签的无标签数据和带有地面真相(GT)标签的有标签数据进行计算。总体损失L是它们的总和。3) 根据总体损失更新学生模型的参数。教师模型以EMA的方式同时更新。这样,基于相互学习机制,两个模型随着训练的进行而不断发展。

根据伪标签的稀疏程度,伪标签框架可以进一步分为稀疏伪标签和密集伪标签,分别称为SPL和DPL。SPL在后处理操作后选择教师的预测,例如非最大抑制和分数过滤。它获得稀疏的标签来监督学生,例如,边界框和类别。DPL直接对教师预测的sigmoid后的logits进行采样,这些logits是密集的、信息量大的。与SPL相比,DPL绕过了那些冗长的后处理方法,比它的伪框对应物从教师那里保留了更多细节。

3.2、优化transport

Monge-Kantorovich最优运输(OT)旨在解决以最小的成本同时将物品从一个集合移动到另一个集合的问题。它已经在各种计算机视觉任务中被广泛探索。以下是OT的数学公式的详细描述。

表示两组N个d维的向量。它们的离散分布

被表述为:

其中

是离散的概率向量,δ是狄拉克三角函数。因此,OT成本是在这两个概率 

之间测量的。从

的可能运输计划形成为:

 其中

是一个N维列向量,其值均为1。那么,OT代价定义为::

 其中

代表两组之间的成本矩阵,

代表内积。通常情况下,OT问题的求解是以其对偶形式进行的:

其中λ和μ是OT问题的解,可以用迭代方式近似。可以用迭代的方式进行近似[5]。

 4、方法

图2显示了我们提出的SOOD的概况。为了在航空图像中进行多方位的物体检测,我们将我们的方法建立在流行的密集伪标签框架[50],以及旋转感知自适应加权(RAW)损失和全局一致性(GC)损失之上。在本节中,我们首先在第4.1节中描述了整体框架。然后,我们在下面的第4.2节和第4.3节中分别描述了所提出的损失,RAW和GC的关键设计。

4.1、整体框架

目前,密集伪标签(DPL)框架在SSOD中达到了最先进的水平。因此,我们构建了一个基于DPL的端到端基线,包括有监督和无监督的部分。对于监督部分,学生模型是以常规的方式用标记的数据进行训练。对于无监督的部分,我们首先在后处理后获得教师的预测框。这些框表示预测图中的信息区域,我们在这里随机抽取预测,形成密集的伪标签

P_t
P_t

。请注意,我们也在学生的相同对应位置选择预测

P_s
P_s

。我们使用FCOS的定向版本作为教师和学生的模型。基本的无监督损失由三部分组成:分类损失、回归损失和中心度损失,对应于FCOS的输出。我们采用平滑的l1损失作为回归损失,二元交叉熵损失作为分类和中心度损失。基于这些损失,我们首先通过RAW对其进行自适应加权,并进一步通过GC测量教师和学生之间的全局一致性。

4.2、旋转敏感的自适应权重损失

定向是定向目标的一个基本属性。如图1所示,即使物体很密集、很小,它们的方向仍然很清楚。以前的定向物体检测方法已经通过将其集合到损失计算中而采用了这样一个属性。然而,这些工作是在假设标签的角度是可靠的。在这样的情况下,很自然地严格要求预测结果接近地面真实。不幸的是,上述假设在半监督环境下并不成立。换句话说,伪标签可能是不正确的。简单地强迫学生接近老师可能会导致噪声积累,损害模型的训练过程。因此,我们建议柔和地利用方向信息。直观地说,由于方向是必要的,但很难被准确预测,预测和伪标签之间的旋转角度差异可以在某种程度上反映样本的难度。换句话说,方向差异可以用来动态地调整无监督损失。因此,我们构建了一个旋转感知的调节因子,类似于焦点损失。这个因子可以通过考虑每个伪标签-预测对的方向差异来动态地加重其损失。

 具体来说,第i对的调制因子

形成如下:

 其中

分别是第i个伪标签和预测的旋转角度,单位为弧度。α是一个超参数,用于调整方向的重要性,我们根据经验将其设置为50。我们给σi添加一个常数,当伪标签和预测具有相同的方向时,保持原点无监督损失。有了旋转感知的调节因子,整个旋转感知的自适应加权损失被表述为:

 其中

是伪标签的数量,

是第i个伪标签-预测对的基本无监督损失。通过使用旋转感知的调节因子,RAW损失更好地利用了方向信息,并提供了更多的信息指导,可能对半监督学习过程有好处。

 4.3、全局一致性损失

如图1所示,航空图像中的物体通常是密集且有规律的分布。与文件中的文本类似,物体集合的排列,即布局,编码了它们之间的相互关系和图像的整体模式。理想情况下,如果每个伪标签-预测对都是一致的,那么学生和老师的预测之间的布局一致性就会得到保证。然而,后一个条件过于严格,当伪标签中存在噪音时,可能会损害性能。因此,增加布局之间的一致性作为一个额外的宽松的优化目标是合理的,鼓励学生从老师那里学习稳健的信息。这样一来,伪标签中的噪音干扰就可以得到缓解了。此外,来自学生的不同预测实例之间的关系也可以被隐含地规范化,这为学生提供了一个额外的指导。

 我们引入最优运输成本[38]来衡量教师和学生的预测之间的布局的全局相似性,形成全局一致性损失。具体来说,我们用

分别表示教师和学生预测的分类分数,其中

K
K

为类的数量。那么,它们的全局分布,

可以用以下方式表示:

 其中

是第i个伪标签得分最大的类别的索引。

 全局一致性损失被定义为OT问题的双重表述:

 其中,我们将两个分布归一化,形成离散的概率,方法是将它们除以其总和。为了构建解决OT问题的成本图,我们同时考虑每个可能的匹配对的空间距离和分数差异。具体来说,对于每个预测,我们衡量其与每个伪标签的匹配成本如下:

 我们通过快速的Sinkhorn距离算法[5]来解决OT问题,得到近似解

。根据所确定的损失,其相对于

的梯度为:

 梯度可以被反向传播以更新模型,强制执行框架中的布局一致性。尽管之前已经探索过基于OT的损失,但我们使用OT的目标是不同的。特别是,他们专注于利用OT来提高模型的泛化能力或减轻匹配约束。然而,我们的GC旨在为教师和学生之间的多对多关系建模,这是对RAW的补充。此外,我们采用这种集对集的匹配方式来缓解伪标签分配的错误,提供一个更宽松但稳定的约束。

 SOOD是用建议的无监督损失、RAW和GC来训练无标签数据,以及监督损失来训练有标签数据。总体损失

被定义为::

 请注意,有监督的损失与FCOS中定义的相同,我们的设计只修改了无监督的部分。

 5、实验

我们在DOTA-v1.5上进行了实验,这是在DOAI-2019†上提出的。它包含2806幅大型航空图像和402,089个带注释的定向物体。它包括三个子集: DOTA-v1.5-train、DOTA-v1.5-val和DOTAv1.5-test,分别包含1411、458和937幅图像。DOTA-v1.5-测试的注释没有公布。在这个数据集中有16个类别: 飞机(PL)、棒球场(BD)、桥梁(BR)、地面轨道(GTF)、小型车辆(SV)、大型车辆(LV)、船舶(SH)、网球场(TC)、篮球场(BC)、储罐(ST)、足球(SBF)、环岛(RA)、港口(HA)、游泳池(SP)、直升飞机(HC)和集装箱起重机(CC)。与之前的DOTA-v1.0[40]相比,DOTA-v1.5包含更多的小实例(小于10像素),这使得它更具挑战性。按照SSOD的惯例,我们考虑两种协议,即部分标记数据和完全标记数据,分别验证方法在有限和丰富的标记数据上的性能。部分标记的数据。我们从DOTA-v1.5训练中随机抽取10%、20%和30%的图像作为标记数据,并将剩余的图像设置为未标记的数据。按照DOTA-v1.5-train的数据分布,我们为每个数据比例提供一个折叠。完全标记的数据。我们将DOTA-v1.5-train设置为有标签的数据,将DOTA-v1.5-test设置为无标签的数据。对于所有的实验,我们在DOTAv1.5-val上进行评估,并以标准的平均精度(mAP)作为评估指标报告其性能。

 在不丧失一般性的前提下,我们将FCOS[37]作为代表性的无锚检测器,并采用ResNet-50[13]与FPN[21]作为我们所有实验的主干。按照以前的工作[11, 12, 40],我们将原始图像裁剪成1024×1024的斑块,跨度为824,也就是说,相邻两个斑块之间的像素重叠为200。我们利用非对称的数据增强来处理未标记的数据。具体来说,我们对学生模型使用强增强,对教师模型使用弱增强。随机翻转用于弱增强,而强增强包含随机翻转、颜色抖动、随机灰度和随机高斯模糊。所有模型都在2个RTX3090 GPU上进行了180k次迭代训练。使用SGD优化器,在120k和160k时,初始学习率为0.0025,被除以10。动量和权重衰减分别被设置为0.9和0.0001。每个GPU取3张图像作为输入,其中未标记和标记数据的比例被设置为1:2。伪标签的采样率默认设置为0.25。按照以前的SSOD工作[24, 50],我们使用 "烧伤 "策略来初始化教师模型。

 5.2、主要的结果

 在这一节中,我们将我们的方法与DOTA-v1.5上先进的SSOD方法进行比较。为了进行公平的比较,我们以相同的增强设置在面向对象检测器上重新实现了这些方法。 部分标记的数据

我们在不同的标签数据比例下评估我们的方法,结果见表1。我们的SOOD在所有比例下都取得了最先进的性能。特别是,在10%、20%和30%的比例下,它分别获得了48.63、55.58和59.23 mAP,超过了我们的监督基线+5.85、+5.47和+4.44 mAP。我们还超过了最先进的无锚方法Dense Teacher[50],在不同比例下分别为+1.73、+1.65和+1.37。我们提供了两种基于锚的方法进行比较,无偏教师[24]和软教师[44]。在10%和20%的比例下,我们的SOOD取得了比Soft Teacher更高的性能,尽管我们的基线比Soft Teacher的更弱。在30%的数据比例下,我们的SOOD至少超过了Soft Teacher和Unbiased Teacher 1.40 mAP。我们的方法与有监督的基线和Dense Teacher[50]相比的定性结果显示在图3。在我们的RAW和GC的帮助下,SOOD能够从未标记的数据中利用更多潜在的语义信息,帮助减少错误预测并提高检测质量。

完全标记的数据

我们还将我们的SOOD与其他SSOD方法[24, 44, 50]在完全标记的数据设置上进行比较。由于报告的方法是基于不同的检测器,我们在表2中报告了比较方法的结果和它们的基线。我们的SOOD至少超过了以前的方法1.30分。与我们的基线相比,我们获得了+2.24 mAP的改进,这进一步证明了我们的方法有能力从未标记的数据中学习。我们注意到,无偏教师[24]的性能在加入无标签数据后有所下降。原因可能是Unbiased老师没有应用无监督损失进行边界盒回归,这对面向对象检测很重要。

对其他检测器的概括。为了进一步验证我们方法的有效性,我们在完全标记数据的设置下,对其他面向对象检测器CFA[10]和KLD[48]进行评估。如表3所示,尽管CFA是一个强大的检测器,但我们的方法仍然带来了+1.32 mAP的改进,达到67.07 mAP。在KLD检测器上,我们的方法带来了+2.41 mAP的改进。上述结果验证了我们方法的泛化能力。

5.3 消融实验

 在本节中,我们进行了广泛的研究,以验证我们的关键设计。除非特别说明,所有的消融实验都是用10%的标记数据进行的。每个组件的效果。我们研究了所提出的两种损失的效果,旋转感知自适应加权(RAW)损失和全局一致性(GC)损失。请注意,我们的SOOD在没有这两种损失的情况下,会退化到香草式密集伪标签框架。如表4所示,这两种损失在所有三种设置下都被证明是有效和互补的: RAW和GC可以各自带来性能上的提高,而当配备了两种损失时,基线会进一步提高。这表明RAW构建的局部约束和GC构建的全局约束可以使半监督学习过程受益,通过构建教师和学生之间的一对一和多对多的关系来促进模型的发展。

采样比率的影响

在这一部分中,我们讨论了采样伪标签中比率的影响。表5中显示了不同采样比率的结果。当采样率设置为0.25时,达到了最佳性能,即48.36 mAP。将其设置为其他值会降低性能。我们假设这个值能确保噪音(如假阳性)和有效预测(如真阳性)之间的良好平衡。增加它将引入更多的噪音,损害训练过程,而减少它将导致信息损失和学习物体表征的失败。

 在这里,我们研究了在构建GC损失的最优运输成本图时,空间距离和核心差异的影响。不同设置的结果显示在表6中。当只使用其中一个时,我们最多得到+0.28 mAP的改进,这表明只有一方的信息对学习全局先验是不够的。当同时考虑分数差和空间距离时,GC带来的性能增益进一步提高到+0.81mAP。这表明分数差和空间距离的信息是互补的。在它们的帮助下,RAW可以有效地模拟教师和学生之间的多对多关系,为模型提供信息指导。

 RAW的超参数α的影响

这里,我们研究RAW中的超参数α的影响。如表7所示,我们将α设置为1.0,得到的性能为47.77mAP。随着α的增加,当α从1到50变化时,我们的方法的性能得到改善。然而,进一步增加到100.0时,会对性能造成轻微的伤害。因此,我们默认将其设置为50。对于这一观察,我们猜测增加权重α会扩大方向信息的影响,但也会放大教师不准确的标签的影响。

 5.4、限制和讨论

尽管我们的方法在半监督导向的物体检测方面取得了令人满意的结果,但对空中物体特征的使用是有限的。除了方向和全局布局外,还应该考虑空中物体的许多其他属性,例如,比例变化和大长宽比。除此之外,我们通过构建两个不同的约束条件来分别考虑方向和全局布局,这些约束条件可以被整合到一个统一的模块中来同时利用这两种信息。我们还发现,定向物体甚至是复杂的物体疯狂地出现在其他任务中,如三维物体检测和文本检测,为进一步探索留下了很大的空间。

6、结论

 在本文中,我们提出了一个有效的解决方案,用于半监督的面向对象检测,这一点很重要,但被忽视了。针对空中场景中面向物体的特点,我们设计了两种新的损失,即旋转感知自适应加权(RAW)损失和全局一致性(GC)损失。前者考虑了旋转信息对定向物体的重要性,通过旋转差异动态地加权每个伪标签-预测对。后者将全局布局概念引入SSOD,以多对多的方式测量教师和学生之间的全局相似度。为了验证我们方法的有效性,我们对DOTA-v1.5基准进行了广泛的实验。与最先进的方法相比,SOOD在部分和完全标记的数据上取得了一致的性能改进。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档