蚂蚁集团优化 Query 设计，即插即用框架改进目标检测 Baselines，DETR 变体显著性能提升！

用户5536580

发布于 2024-07-04 15:38:28

300

发布于 2024-07-04 15:38:28

Query 的设计对于DETR及其变体的性能至关重要。每个 Query 由两个部分组成：内容部分和位置部分。传统上，内容 Query 是用零或可学习的嵌入进行初始化，这缺乏必要的内容信息，导致性能次优。在本文中，作者引入了一种新颖的即插即用模块，自适配内容 Query （SACQ），以解决这一限制。 SACQ模块利用来自 Transformer 编码器的特征通过自注意力池化生成内容 Query 。这使得候选 Query 能够适应输入图像，从而获得更全面的内容先验并在目标目标上更好地集中注意力。然而，这种改进的集中度对于使用匈牙利匹配的训练过程提出了挑战，因为匈牙利匹配只选择一个候选并抑制其他相似的一个。为了克服这一点，作者提出了一种与SACQ配合使用的 Query 聚合策略。它合并来自不同 Query 的相似预测候选，简化了优化。作者在COCO数据集上的大量实验证明了作者提出的方法在六个不同DETR变体上的有效性，这些变体具有多种配置，平均提升了超过1.0 AP。

1 Introduction

目标检测在自动驾驶、视频监控和机器人操作等众多应用中至关重要。在过去的几十年里，卷积架构在检测方法上推动了显著的发展。这些算法通常需要一个人工设计的模块来生成 Anchor 点，这些 Anchor 点作为目标检测的初步候选。此外，非最大抑制（NMS）对于防止重复检测是不可或缺的。最近，Carion等人提出了一种全新的端到端目标检测方法，名为DEtection TRansfomer（DETR）。与之前的检测算法相比，DETR使用学习到的 Query 来独特预测物体，从而无需生成 Anchor 点和NMS。这种方法简化并统一了检测流程，但训练收敛速度较慢。

图1：比较了普通Deformable-DETR和带有SACQ的Deformable-DETR在第一解码层的多尺度可变形注意力。作者从一张图中绘制了多尺度特征图中的采样点和注意力权重。每个采样点用一个带颜色的小圆圈标记，颜色表示其注意力权重。红色矩形是相应 Query 预测的边界框。

为了解决DETR的收敛问题，已经提出了许多DETR的变体，通过增强 Query 设计来改进。在解码器中，每个 Query 由两部分组成：内容部分和位置部分。大多数现有研究集中在了改进位置部分。这些方法致力于为每个 Query 提供一个全面的位置先验，使跨注意力模块能够关注与目标物体相关的特定区域。相比之下，内容部分在很大程度上被忽视了，通常初始化为零或可学习的嵌入。这在初始解码层为跨注意力模块提供的信息并不充分。

在本文中，作者关注内容 Query 这一方面，这在之前的工作中很少被考虑。作者引入了一种新颖的即插即用模块，称为自适配内容 Query （SACQ），以增强DETR变体的性能。作者的SACQ包括两个主要组成部分：

用于内容 Query 初始化的全局池化特征，以及
用于进一步增强内容 Query 的局部池化特征。传统上，解码器中的内容 Query 初始化为零张量或可学习嵌入，这保持静态且缺乏任何输入先验。Carion等人指出，DETR中的编码器已经通过全局注意力分离实例，而解码器则关注极端以提取类别和目标边界。

基于这一洞见，作者提出了一个自注意力池化模块（SAPM），能够动态地从编码器池化特征，作为解码器第一层更有效的初始内容 Query 。

为了验证作者的假设，作者可视化了原始Deformable-DETR解码器第一层的具有高注意力权重的学习采样点，如图.1所示。可视化表明，这些点倾向于聚集在预测目标的狭窄区域，或者散布在目标周围。在融入SAPM模块之后，具有高权重的采样点更均匀地覆盖了整个预测目标，且在目标外的点显著减少。这表明作者的内容 Query 补充了每个 Query 的内容先验，使交叉注意力模块能更好地关注目标目标。

改进的目标 Query 倾向于集中关注目标目标，导致为目标目标生成了高度相似的一簇候选 Query 。这对于通过传统的匈牙利一对一匹配的训练过程提出了额外的挑战。Jia等人（2022年）指出，这种匹配策略由于很少有 Query 被分配为正样本，降低了正样本的训练效率。为了缓解这个问题，作者提出了一个简单的解决方案：在执行集合匹配之前，将不同 Query 生成的相似预测结果合并为一个。 Query 的相似性由类别预测的Kullback-Leibler（KL）散度（Joyce，2011年）和边界框预测之间的交并比（IoU）确定。如图5所示，由于改进的初始化，作者的SACQ模块倾向于为目标目标生成更相似的边界框。通过实施 Query 聚合（QA）策略，作者进一步利用了SACQ的好处，将这些潜在 Query 的输出结合起来，最大化它们的作用。

总之，作者的技术贡献有两方面：

作者提出了一种新的内容 Query 优化方法，这在之前的工作中被忽视了。它包括两个互补的模块：SACQ和QA。SACQ通过引入输入先验，为解码器生成改进的内容 Query 。此外，QA模块保留了SACQ生成的高质量候选，并通过聚合候选框减少了与一对一匹配相关的不稳定性。这两个模块都可以轻松地集成到现有的DETR变体中。
通过在COCO数据集上的大量实验和定性分析，作者验证了所提出方法的有效性，在六个不同DETR变体上的多个配置中平均提升了超过1.0 AP。

2 Related work

以下是"相关工作"部分的开始：

CNN-based Object Detection Methods

经典基于CNN的目标检测器可以分为两类：两阶段和单阶段方法。两阶段方法首先生成一组框 Proposal ，然后确定每个 Proposal 是否对应于一个目标，最后基于这些 Proposal 进行边界框回归。典型方法包括RCNN (Girshick et al. 2014), Fast-RCNN (Girshick 2015), Faster-RCNN (Ren et al. 2015)等。相比之下，单阶段模型直接基于预定义的 Anchor 点或参考点预测目标的边界框。单阶段方法的例子包括SSD (Liu et al. 2016), YOLO系列 (Redmon et al. 2016; Redmon and Farhadi 2018)等。

DETR and Its Variants

DETR（Carion等人，2020年）是将 Transformer 引入目标检测的开创性工作。与先前的检测方法不同，DETR是一个真正的全端到端检测器，不依赖于如 Anchor 点 Proposal 和NMS之类的手动设计组件。然而，由于其解码器中的交叉注意力（Sun等人，2020年），它的训练收敛速度极其缓慢。许多后续方法试图解决这个问题。Dai等人（Dai等人，2021年）通过结合动态注意力改进了DETR中的编码器和解码器，克服了特征分辨率低和训练收敛慢的问题。Anchor DETR（Wang等人，2021年）和DAB-DETR（Liu等人，2022年）分别将位置 Query 公式化为动态 Anchor 点和 Anchor 框，这弥合了经典基于 Anchor 点的检测器与基于DETR的检测器之间的差距。

一些变体通过优化 Transformer Head 的结构来提高训练性能。Sparse DETR（Roh等人，2022年）和PnP-DETR（Wang等人，2021年）解决了由特征图的空间冗余问题引起的DETR模型中 Transformer 网络的过度计算问题。Deformable-DETR（Zhu等人，2021年）提出了一种更有效的注意力模块，它关注参考点周围的一小组采样位置，作为突出关键元素的预过滤器。

其他一些工作改进了解码器中的 Query 。SAM-DETR（Zhang等人，2022年）使用 Query 嵌入来对齐和重新加权RoI-Aligned编码的图像特征，并生成增强的 Query ，这在一定程度上与作者的 Query 特征增强相似。然而，作者方法和SAM-DETR的主要目标有很大不同。SAM-DETR使用零初始化的内容 Query ，主要在第一个解码层之后增强 Query ，而作者的SACQ旨在提供在当前DETR变体的 Query 初始化时最初被忽视的目标相关内容先验。SAP-DETR [11]为每个 Query 分配一个特定的网格区域，并将网格的角/中心作为其参考点初始化。这种方法与作者的方法是正交的。Dynamic DETR [12]引入了动态注意力，通过在编码器和解码器阶段将额外的RoI特征添加到交叉注意力中，解决特征分辨率低和训练收敛慢的问题。然而，它也使用可学习的嵌入进行 Query 初始化，这与作者的方法不同。

Li等人提出了DN-DETR ，它将带有噪声的真实边界框额外输入到 Transformer 解码器中，并训练模型重建原始框。DINO [14]进一步通过将DN-DETR与DAB-DETR和Deformable-DETR的设计相结合来改进去噪训练。Mask DINO [13]通过添加 Mask 预测分支扩展了DINO，使其支持分割任务。它通过简单地从编码器中选择特征来初始化内容 Query ，但其初始化只包含一个位置的信息，无法覆盖整个目标。H-DETR [15]和Co-DETR [15]增加了额外的混合匹配训练分支，探索更多的正 Query 以克服一对一匹配的缺点。Stable-DINO 仅利用位置度量来监督正例的分类得分，以减轻二分图匹配的不稳定性。最近提出的其他DETR变体包括Group-DETR [2]，SQR-DETR [2]，Team-DETR [20]，和KS-DETR 。

3 Method

以下是第3节方法部分的翻译：

Overview

给定输入图像，DETR及其变体首先应用一个 Backbone 网络提取空间特征。这些特征通过 Transformer 编码器进一步细化成增强特征。增强特征连同一组默认的目标 Query 一起被送入 Transformer 解码器以识别相应的目标。最后，解码器最后一层的输出被用来通过预测头预测标签和边界框。 Transformer 解码器中的目标 Query 包括两个部分：位置 Query 和内容 Query 。然而，在大多数DETR变体中，内容 Query 通常初始化为零或者一个可学习的嵌入。在这项工作中，作者专注于内容 Query ，并提出了一种新颖的即插即用模块——自适应性内容 Query （SACQ）来增强它。这进一步通过 Query 聚合（QA）策略得到补充。更多的细节将在以下小节中详细阐述。

Self-Adaptive Content Query

为了增强内容 Query 的初始化，开发一个能够从图像中准确识别并提取与目标相关特征的功能模块至关重要。现有的针对特定目标的特征提取方法，如RoI-Align，需要输入图像中精确的目标位置坐标。然而，使用这种方法池化的特征可能不可避免地包含噪声，如背景。解决这一挑战的一个有希望的方案是使用注意力机制软性隔离目标，这可以比通过RoI-Align获得更好的特征。这个解决方案涉及设计一个可以为每个目标生成独特注意力图的模块，并使用这些图来提取详细的目标特定特征。这些特征随后将有助于内容 Query 的初始化和增强。由于这个过程不需要输入目标的坐标，作者将其称为自适应性内容 Query （SACQ），这是一种更直观、更自主的目标相关特征提取方法，旨在获得更好的内容 Query 。

图2：图中左侧部分展示了所提出SAPM的结构。来自 Transformer 编码器的特征通过注意力图投影模块投射为注意力图。对于编码器的每个特征，根据空间维度中的某个注意力图对其元素进行加权，然后平均以创建空间池化特征。右侧部分说明了将SACQ集成到DETR变体的 Transformer 解码器中。SACQ从 Transformer 编码器产生的特征生成解码器第一层的内容 Query 初始化。从解码器的第二层开始，SACQ使用SAPM根据之前的框预测来增强内容 Query 。

作者的SACQ的核心是自注意力池化模块（SAPM），详细描述见图2的左侧部分。SAPM由三个组件组成：注意力图投影（AMP）模块、加权池化（WP）模块和通道重加权（CR）模块[11]。给定输入特征，SAPM首先通过AMP模块将其投影为注意力图。这里，AMP由几个卷积层组成。其主要目标是生成能够关注到相应目标的每个 Query 的注意力图。随后，特征经过由注意力图引导的加权池化过程，得到特定目标特征，如下所示：

然后，CR模块细化内的通道权重，从而强调提取特征的独特性。输出特征可以表示为，其中表示sigmoid激活函数，表示逐元素乘法。

SAPM在提高第一个解码器层内容 Query 初始化方面发挥了重要作用。此外，通过细化内容 Query ，以便更准确地聚焦于目标目标，后续层还有进一步的优化空间。为了充分利用SAPM精确聚焦目标的能力，作者将其与RoI-Align集成以生成局部特征。这种对内容 Query 的增强从第二个解码器层开始，并延续下去。

图2的右侧部分展示了完整的SACQ模块。 Transformer 编码器生成特征，这些特征最初由全局SAPM处理以产生初始内容 Query 。这个 Query 与位置 Query 结合，形成复合目标 Query ，用作 Transformer 解码器第一层的输入。通过多头交叉注意力，目标 Query 与互动，产生更新的内容 Query 。为简洁起见，图中未显示将特征的位置编码输入到解码器中。随后，使用框头预测每个 Query 的边界框。这些边界框接着通过RoI-Align提取特定于每个预测区域的局部特征。提取的局部特征随后输入到局部SAPM中，产生的输出用于增强内容 Query 并生成下一解码层的输入：。后续的解码层重复此过程，通过使用共享参数的局部SAPM来强化内容 Query 。

Similar Query Aggregation Strategy

作者的SACQ通过自注意力机制增强内容 Query ，使其能够产生更多高质量候选结果。然而，这种候选质量改进使优化过程变得复杂，并给现行的一对一匹配机制带来了不稳定性。因为一对一匹配局限于优化每个目标的单一候选，这需要抑制属于同一目标的任何其他高质量候选。为了解决这个问题，作者提出了一种名为 Query 聚合（QA）的方法，它在集合匹配之前将不同候选的相似预测整合为一个统一的结果。这种策略不仅保留了高质量候选，还通过聚合候选框以便更容易优化，减轻了一对一匹配的不稳定性。在作者的QA中，作者使用Kullback-Leibler（KL）散度和交集并集（IoU）分别评估 Query 之间预测类别和边界框的相似性。对于属于第个和第个 Query 的类别预测和，其中，类别相似性定义如下：

对于第个和第个 Query 的边界框预测和，框相似性由以下方式定义：

图3：（a）显示了 Transformer 的普通解码器。直接将来自 Query 生成的候选预测与目标匹配。（b）显示了采用作者 Query 聚合策略的解码器。首先根据相似性度量合并候选预测，然后与目标匹配。

这里，表示 Query 的数量，是目标类别的总数。作者设定了两个阈值来确定哪些 Query 要合并：类别相似性阈值和框相似性阈值。合并的标准是S_{cls}t_{b}。对于确定要合并的n个集合Q_{i}，其中i\in M，合并后的结果通过预测的平均值计算：p=\frac{1}{n}\sum_{i\in M}p_{i}，B=\frac{1}{n}\sum_{i\in M}B_{i}。图3展示了采用 Query 聚合策略的 Transformer 解码器与普通 Transformer 解码器之间的区别。## 4 实验

Setup

数据集作者在著名的COCO 2017目标检测数据集[14]上进行实验，该数据集包含大约118K张训练图像和5K张验证图像。遵循检测方法中的常见做法，作者在不同的边界框IoU阈值下，针对不同目标尺度，报告验证集上的标准平均精度（AP）结果。

实施细节作者测试了作者的方法在六个DETR变体上的有效性：Deformable-DETR、SAM-DETR、SAP-DETR、DAB-DETR、DN-DETR和DINO。它们包括一个 Backbone 网络、多个 Transformer 编码层和解码层。为了公平比较，作者统一采用在ImageNet-1K[12]上预训练的ResNet-50[13]模型作为每个变体的 Backbone 。

作者遵循相应 Baseline 方法的原始超参数设置。关于SAPM的详细网络结构，请参考附录A.1。类别和框相似度阈值设置为：。RoI-Align在内容 Query 增强中使用的输出大小为。作者在一个8-(A100)GPU机器上为每个GPU使用2张图像进行训练，总批处理大小为16。使用AdamW[11]进行优化，，，权重衰减为。 Backbone 网络和其他模块的学习率分别设置为和。对于快速收敛的变体（DN-DETR和DINO），作者训练模型12个周期，并在第11个周期后将学习率降低0.1。

对于Deformable-DETR和DAB-DETR，作者训练模型50个周期，并在第40个周期后将学习率降低0.1。对于损失函数，作者使用L1损失和GIOU[13]损失进行边界框回归，以及用于目标分类的Focal Loss[14]（，）。遵循DETR变体的训练设置，作者在每个解码层后添加辅助损失。作者使用与每个 Baseline 方法相同的损失系数，即分类损失为，L1损失为，GIOU损失为。

Main Results

表1展示了作者主要的实验结果。为了公平起见，所有模型都在COCO 2017验证集上进行评估。作者的方法一致提高了所有方法的性能。对于Deformable-DETR，在迭代边界框细化和两阶段设置下，作者的方法分别实现了AP增益为1.5（45.4 vs. 46.9）和1.1（46.2 vs. 47.3）。DAB-DETR和DAB-Deformable-DETR改进了 Query 的位置方面，作者的方法进一步提升了性能，分别实现了AP增益1.0（42.2 vs. 43.2）和0.8（46.8 vs. 47.6）。这表明作者对内容 Query 的优化与位置 Query 正交。对于SAM-DETR和SAP-DET，作者的方法分别带来了AP增益1.2（41.8 vs. 43.0）和1.4（43.1 vs. 44.5）。DN-DETR引入了 Query 去噪任务以帮助稳定二分图匹配并加速训练收敛，也得益于作者的方法，在12个周期的训练计划下实现了1.3的AP提升（41.1 vs. 42.4）。

对于最先进的方法DINO，作者获得了0.4（49.0 vs. 49.4）的AP提升。尽管对DINO的提升尚未显著，但作者同时优化了内容 Query 和匹配策略，为基于DETR的检测方法揭示了一个新的方向。这两个模块以非平凡的方式紧密相关。

作者当前的解决方案是有效的，并具有很大的进一步改进潜力，作者将其留作未来的研究。关于Swin Transformer Backbone 网[11]的更多结果，请参阅附录B.1。

Ablations

作者对带有迭代边界框细化基准的Deformable-DETR进行了一系列消融研究，以验证作者方法中每个组件的有效性。表2的结果表明，所有组件都对性能提升有贡献。SACQ-Global指的是作者仅采用一个SAPM从编码器中池化全局特征来初始化内容 Query 。SACQ-Local表示在第一解码层之后使用局部池化的特征来增强内容 Query 。QA代表作者的相似性 Query 聚合策略，它将不同 Query 的相似预测结果合并到同一个中。结果显示，使用全局池化特征初始化的内容 Query 性能提升最为显著。

作者分析了SACQ的通道加权模块的影响，如表3所示。结果表明，添加CR模块在一定程度上提高了性能。作者认为CR模块可以使每个内容 Query 更加专业化，并以高度目标特定的方式对不同输入做出响应。

此外，作者还研究了 Query 聚合策略中不同阈值的影响。作者将类别阈值设置得较低，以确保具有相同类别的 Query 能够合并。这对性能结果没有显著影响。然而，性能对边界框交并比（IoU）阈值非常敏感。作者发现当框IoU阈值太小时，性能会下降。如表7所示，作者展示了使用不同框IoU阈值获得的结果。当阈值设置为时，性能下降到AP为，低于没有 Query 聚合的基准。这种下降可以归因于对彼此重叠不显著的物体合并的负面影响。更多消融研究请参考附录B.2和B.3。

Discussions

SACQ学会了什么注意力图？在作者跨多个 Baseline 的综合实验中，作者验证了SACQ的有效性。为了清楚理解其自注意力机制，作者将全局池化注意力图以 Heatmap 形式进行了可视化。如图8所示，SACQ模块内的每个注意力图准确地集中在相关目标上（由红色边界框表示，代表相应 Query 的预测目标）。对于预测得分较低的 Query ，注意力图显示出更均匀的分布，表明注意力较为分散。精确聚焦特定目标的能力验证了生成的特征适合启动内容 Query 。这种启动为初始解码层中的交叉注意力计算提供了更优的内容先验，从而提高了交叉注意力机制在瞄准期望目标时的精确度。额外的可视化请参见附录B.4。

SACQ可以被ROI对齐特征替换吗？在编码特征图上的ROI对齐结果可以作为内容 Query 初始化的一个简单选项。然而，对于大多数DETR的变体（除了两阶段的Deformable-DERT），它需要额外的模块来生成ROIs，这与DETR变体的一个关键优势——消除 Anchor 点或 Proposal 生成相矛盾。此外，作者进行了使用ROI对齐特征作为内容 Query 初始化的实验，其中ROIs来自两阶段Deformable-DERT的第一阶段。与原始的两阶段Deformable-DERT相比，性能下降了1.1个百分点（45.1 vs. 46.2）。

主要原因有两点：

如DINO的作者所指出的，第一阶段预测的边界框质量较低；
使用ROIs获取的特征包含不相关内容，因为目标可能并不完全适合目标框，这使得特征含糊不清，不足以用于内容 Query 初始化。相比之下，SACQ可以通过SAPM模块准确地聚焦于目标目标（参见图8）。

表4：不同框IoU阈值在QA中的影响。

QA如何与SACQ协作？在改善了初始化之后，SACQ能够为目标目标产生更多高质量候选边界框，如图5的左部分所示。传统的逐一匹配方法只会给这些 Query 中的一个分配高的目标得分，从而抑制并未充分利用其余 Query 。

此外，更多高质量候选的存在可能会进一步加剧优化过程的不稳定性。例如，候选A和B都符合一个目标目标的匹配标准。在特定的训练迭代中，可能会优化候选A而抑制候选B，反之亦然。这种波动加剧了优化过程的不稳定性，并使其更难实现收敛。作者的 Query 聚合（QA）模块旨在通过合并这些高质量候选的输出来解决此问题，从而无需抑制与同一目标相关的任何其他高质量候选。

合并 Query 预测的目标是什么样子？如前所述，作者的 Query 聚合策略将不同高质量候选的相似预测组合成单一预测。在验证集中，合并操作的最大数量为169，最小为1，表示没有发生合并的情况。图6展示了合并后的预测边界框，以及每个 Query 的原始预测。绿色边界框表示得分超过0.5的合并 Query 的预测，而红色框表示合并前的 Query 预测。蓝色框表示得分低于0.5的 Query 预测。结果表明，作者的策略可以通过合并高质量候选并最大化其利用率来增加目标预测的置信度。例如，在图6中，第二行图像左侧没有 Query 聚合的人的得分低于0.5。然而，在 Query 聚合之后，对同一个人的相应预测得分超过了0.5。这凸显了作者的聚合方法在提高目标检测可靠性方面的有效性。

5 Conclusion

在本文中，作者介绍了一种新颖的即插即用方法，该方法提高了DETR变体的性能。作者的方法包括一个自适配内容 Query （SACQ）模块和一个 Query 聚合（QA）策略。SACQ模块通过提供更好的初始化和逐步增强，改进了DETR变体中的 Query 内容方面。另一方面，QA策略保留了SACQ生成的高质量候选，并通过合并相似的候选框减少了一对一匹配的不稳定性，这进一步补充了SACQ模块。作者已经在六种不同的 Baseline 方法上进行了大量实验，这些方法具有多种配置，以验证作者方法的有效性。实施细节。