台大提出 DQ-DETR | 用简简单单 3 步改进 DETR 即可完成小目标检测的大跨越

集智书童公众号

发布于 2024-04-12 20:07:05

2.6K0

尽管之前的类似DETR的方法在通用目标检测中取得了成功，但在小目标检测方面仍然具有挑战性，因为目标 Query 的位置信息并未针对检测小物体进行定制，这些小物体的尺寸比一般物体小得多。此外，类似DETR的方法使用固定数量的 Query ，这使得它们不适用于只包含小物体的航空数据集，且不同图像之间的实例数量不平衡。因此，作者提出了一个简单而有效的模型，名为DQ-DETR，它包括三个不同的组件：分类计数模块、计数引导的特征增强和动态 Query 选择，以解决上述问题。DQ-DETR使用分类计数模块的预测和密度图来动态调整目标 Query 的数量并改善 Query 的位置信息。 DQ-DETR超过了之前的基于CNN和类似DETR的方法，在主要由小物体组成的AI-TOD-V2数据集上取得了最先进的mAP 30.2%。

1 Introduction

卷积神经网络（CNNs）在处理RGB语义和空间纹理特征方面具有优势。大多数目标检测方法主要基于CNNs。例如，Faster R-CNN 引入了一个区域 Proposal 网络来生成潜在的目标区域。FCOS 应用一个中心预测分支来提高边界框的质量。

然而，CNNs不适合获取图像中的长距离依赖，这限制了检测性能。最近，DETR将CNN和 Transformer 架构结合在一起，建立了一个新的目标检测框架。DETR利用 Transformer 编码器整合分割图像块，并通过可学习的目标 Query 将它们传递到 Transformer 解码器以获得最终检测结果。此外，一系列类似DETR的方法旨在提高DETR性能并加速DETR的收敛速度。例如，Deformable-DETR使用多尺度特征图来提高检测不同大小目标的能力。同时，使用可变形注意力模块不仅可以捕获更多信息和上下文相关的特征，还可以加速训练收敛。

尽管如此，在先前的类似DETR的方法中， Transformer 解码器中使用的目标 Query 没有考虑图像中实例的数量和位置。通常，它们应用固定数量的K个目标 Query ，其中K表示检测目标的最大数量，例如，在DETR和DINO-DETR中分别为K=100和K=900。此外，目标 Query 的位置是一组学习的嵌入，与当前图像无关，没有明确的物理意义来说明 Query 关注的位置。

作者认为，在只包含微小目标且不同图像之间目标实例不平衡的航空图像中，先前的类似DETR方法是不合适的。例如，在AI-TOD-V2数据集中，有些图像包含超过1500个目标，而其他图像则少于10个目标。作者观察到，使用较小的K限制了密集图像中目标的召回率，导致许多实例未被检测到（FN），如图1(a)所示。相反，图1(c)显示在稀疏图像中使用较大的K不仅引入了许多潜在的假阳性样本（FP），还由于解码器自注意力模块的计算复杂度与 Query 数K成二次增长，从而造成了计算资源的浪费。

基于上述弱点，作者提出了一种名为DQ-DETR的新型类似DETR方法。在这项工作中，作者提出了一种动态 Query 选择模块，用于在DETR的解码器阶段自适应地选择不同数量的目标 Query ，从而在稀疏图像中减少FP，在密集图像中减少FN。此外，作者通过类别计数模块生成密度图并估计图像中的实例数量。目标 Query 的数量根据预测的计数数进行调整。此外，作者将密度图与来自 Transformer 编码器的视觉特征进行聚合，以强化前景特征，增强小目标的空

2 Related work

类似DETR的方法提出了一种基于 Transformer （transformer）的端到端目标检测框架，名为DETR（DEtection TRANSFMomer），其中 Transformer 编码器从图像中提取实例级特征， Transformer 解码器使用一组可学习的 Query （queries）来检测和汇聚图像中的特征。尽管DETR与之前的经典基于CNN的检测器取得了相当的结果，但它严重受到训练收敛慢的问题困扰，需要500个周期的训练才能表现良好。许多后续工作试图从不同的角度解决DETR训练收敛慢的问题。

一些观点指出，DETR收敛慢的原因是由于 Transformer 解码器中的不稳定匈牙利匹配和交叉注意力机制。[18]提出了一种仅编码器的DETR，摒弃了 Transformer 解码器。Dynamic DETR在解码器中设计了一种基于ROI的动态注意力机制，能够从粗到精地关注感兴趣的区域。Deformable-DETR[28]提出了一种仅关注参考点周围几个采样点的注意力模块。DN-DETR[7]引入了去噪训练以降低二分图匹配的难度。

另一系列工作在解码器目标 Query 上进行了改进。由于DETR中的目标 Query 仅是一组可学习的嵌入（embedding），[10, 12, 22]将DETR的缓慢收敛归因于目标 Query 的隐含物理解释。Conditional DETR[12]解耦了解码器的交叉注意力公式，并基于参考坐标生成条件 Query 。DAB-DETR将目标 Query 的位置信息公式化为4-D Anchor 框（x, y, w, h），用于提供ROI（感兴趣区域）信息以检测和汇聚特征。

小目标检测。由于小目标缺乏像素，检测小目标具有挑战性。早期的工作应用数据增强以过采样小目标实例。例如，将小目标 Copy-Paste 到同一图像中。[29]提出了K个子策略，自动转换实例级的特征。此外，几种方法，如[20, 23, 24, 25]指出，传统的交并比（IoU）指标不适合小目标。当目标大小差异显著时，IoU变得高度敏感。为了设计适合小目标的指标，DotD[23]考虑目标的绝对和相对大小以制定新的损失函数。[20, 23, 25]设计了一种基于高斯分布的新标签分配，减轻了目标大小的敏感性。

然而，这些方法高度依赖于预定义的阈值，对于不同的数据集来说不稳定。相反，DQ-DETR使用一种计数引导的特征增强模块来改善小目标的大小和位置的空间信息。同时，尽管上述类似DETR的方法改进了 Query 的公式，但它们并非专门为检测小目标而设计。例如，[2, 7, 10, 12]中的目标 Query 是从训练数据中学习的，对于不同的输入图像保持不变。作者认为，对于航拍数据集来说，目标 Query 的静态位置是不合适的，在这些数据集中，不同图像中的实例分布变化极大，即有些图像在特定区域内密集地集中了目标，而有些图像仅在整个图像中散布了几个目标。作者提出的DQ-DETR是第一个关注小目标检测的类似DETR模型。DQ-DETR动态调整目标 Query 的数量并增强 Query 的位置信息，以精确检测小目标。

3 Method

Overview

DQ-DETR的整体结构如图2所示。作为一种类似DETR的方法，DQ-DETR是一个端到端的检测器，包含一个CNN Backbone 网络、一个可变形 Transformer 编码器、一个可变形 Transformer 解码器以及几个预测头。作者进一步在DETR的架构上实现了一个新的分类计数模块、一个计数引导的特征增强模块以及基于动态 Query 选择。

给定一个输入图像，作者首先使用CNN Backbone 网络提取多尺度特征，并将它们输入到 Transformer 编码器以获得编码器的视觉特征。之后，作者的分类计数模块确定在 Transformer 解码器中使用多少个目标 Query ，如图2(a)所示。此外，作者提出了一个新颖的计数引导特征增强模块，如图2(b)所示，用小目标的空间信息加强编码器的视觉特征。最后，通过动态 Query 选择，如图2(c)所示，目标 Query 的位置信息将被细化。下一节将描述所提出的分类计数模块、计数引导特征增强和动态 Query 选择。

Reconstruction of Encoder's Feature Map

遵循DETR的流程，作者使用从 Backbone 网络不同阶段提取的多尺度特征图

P_{i}\in\{1,2,\ dots,l\}

作为 Transformer 编码器的输入。为了形成 Transformer 编码器的输入序列，作者将每个多尺度特征图层

P_{i}

从

\mathbb{R}^{d\times h_{i}\times w_{i}}

展平到

\mathbb{R}^{d\times h_{i}w_{i}}

，然后将它们拼接在一起。高分辨率特征包含更多的空间细节，这对于目标计数和检测小物体是有益的。

在作者提出的分类计数模块中，作者将对 Transformer 编码器特征执行卷积操作。因此，作者通过 Reshape 其空间维度来重建展平的编码器的多尺度视觉特征，得到2-D特征图

S_{i}\in\mathbb{R}^{d\times h_{i}\times w_{i}}

。为了简洁起见，作者将重建的编码器的多尺度视觉特征称为EMSV特征。

Categorical Counting Module

分类计数模块旨在估计图像中目标的数量。它包括一个密度提取器和分类 Head 。

密度提取器。作者采用EMSV特征中最大的特征图

S_{1}

，并通过密度提取器生成密度图

F_{c}

。输入特征图

S_{1}

首先送入一个

1\times 1

卷积层进行通道缩减（

\mathbb{R}^{b\times 256\times h\times w}\rightarrow\mathbb{R}^{b\times 512 \times h\times w}

）。然后，它被送入一系列膨胀卷积层以获得包含计数相关信息的密度图

F_{c}

。特别是，膨胀卷积层扩大了感受野，捕捉了小目标丰富的长距离依赖。

计数数字分类。最后，作者通过一个分类 Head 估计计数数字，即每张图像的实例数量，并将它们分为四个 Level ，分别是，10<n\leq 100100N的平均值和标准差。

值得注意的是，作者没有使用传统人群计数方法中的回归 Head ，后者将计数数字回归到一个具体的数值。作者将原因归因于每张图像中实例数量的巨大差异，在AI-TOD-V2的不同图像中，

的范围从1到2267。很难回归一个准确的数字，这会损害检测性能（参见第4.4.3节表5）。

Counting-Guided Feature Enhancement Module (CGFE)

作者通过提出的计数引导特征增强模块（CGFE）用来自分类计数模块的密度图细化EMSV特征，以提高小目标的空间信息。此外，这些细化特征将进一步用于增强 Query 的位置信息。该模块包括一个2-D空间注意力模块和一个1-D通道注意力模块。

空间注意力图。作者采用

1\times 1

卷积层对密度图

F_{c}

进行下采样，创建多尺度计数特征图

F_{c,i}\in\{1,2,\ldots,l\}

，以匹配编码器每层的多尺度特征图

S_{i}\in\{1,2,\ldots,l\}

的形状。随后，作者首先在每个多尺度计数特征

F_{c,i}\in\mathbb{R}^{b\times 256\times h\times w}

的通道轴上应用平均池化（AvgP。）和最大池化（MaxP.）。然后，这两个池化特征

\mathbb{R}^{b\times 1\times h\times w}

被连接并送入一个7x7卷积层，之后是一个Sigmoid函数，以产生空间注意力图

W_{s}\in\mathbb{R}^{b\times 1\times h\times w}

。作者在方程1中描述这个过程。

由于密度图

F_{c}

包含有关目标的位置和密度信息，因此它们生成的空间注意力图可以聚焦于重要区域，即前景目标，并用丰富的空间信息增强EMSV特征。

W_{s,i}=\sigma(\underset{7\times 7}{卷积}(Concat\begin{bmatrix}AvgP.(\underset{1 \times 1}{卷积}(F_{c,i}))\\ MaxP.(\underset{1\times 1}{卷积}(F_{c,i}))\end{bmatrix})). \tag{1}

生成的空间注意力图

W_{s,i}

与EMSV特征

S_{i}

逐元素相乘，进一步获得空间增强特征

E_{i}

，如方程2所示。

E_{i}=W_{s,i}\otimes S_{i}, \tag{2}

通道注意力图。在空间注意力之后，作者进一步对空间增强特征

E_{i}

应用通道注意力，利用特征间的通道关系。具体来说，作者首先在

E_{i}\in\mathbb{R}^{b\times 256\times h\times w}

的每个层面沿空间维度应用平均池化和最大池化。接下来，这两个池化特征

\mathbb{R}^{b\times 256\times 1\times 1}

被送入共享的MLP，并通过逐元素加法合并以创建通道注意力图

W_{c,i}

。最后，通道注意力图

W_{c,i}\in\mathbb{R}^{b\times 256\times 1\times 1}

与原始

E_{i}\in\mathbb{R}^{b\times 256\times h\times w}

相乘，进一步得到计数引导增强特征图

F_{t}

。公式定义在方程3和方程4中：

W_{c,i}=\sigma(MLP(AvgP.(E_{i}))+ \tag{3}

MLP(MaxP.(E_{i}))),

F_{t,i}=W_{c,i}\otimes E_{i}. \tag{4}

Dynamic Query Selection

Query 数量。 在动态 Query 选择中，作者首先使用类别计数模块的分类结果来确定 Transformer 解码器中使用的 Query 数量

。类别计数模块中的四个分类类别对应于四个不同的 Query 数量，分别是

= 300、500、900和1500，即如果图像被分类为

N\leq 10

，作者在后续检测任务中将使用

K=300

个 Query ，依此类推。

Query 增强。 对于 Query 公式，作者遵循DAB-DETR中的想法，其中 Query 由内容和位置信息组成。 Query 的内容是一个高维向量，而 Query 的位置被表述为一个4-D Anchor 框（x, y, w, h）以加速训练收敛。

进一步地，作者使用之前CGFE模块增强的多尺度特征图

F_{t}

来改善 Query 的内容

Q_{content}

和位置

Q_{position}

。首先将

F_{t}

的每一层展平到像素 Level 并将它们连接起来，形成

F_{flat}\in\mathbb{R}^{b\times 256\times hw}

。将选择顶部-K特征作为增强解码器 Query 的先验，其中

是 Transformer 解码器阶段中使用的 Query 数量。选择基于分类得分。作者将

F_{flat}

输入到FFN中进行目标分类任务并生成分类得分

\in\mathbb{R}^{b\times m\times hw}

，其中m是数据集中的目标类别数。之后，作者将使用选定的顶部-K特征

F_{select}

生成 Query 的内容和位置。

Score = FFN(F_{flat}), \tag{5}

F_{select} = topK_{Score}(F_{flat}).

Query 的内容是通过选择特征

F_{select}

的线性变换生成的。至于 Query 的位置，作者使用FFN预测偏差

\hat{b_{i}}=(\Delta b_{ix},\Delta b_{iy},\Delta b_{iw},\Delta b_{ih})

来细化原始 Anchor 框。让

(x,y)_{i}

索引来自多级特征

F_{t}\in\{1,2,\dots,l\}

在位置(x, y)的一个选定特征。选定特征有它的原始 Anchor 框

(x_{i},y_{i},w_{i},h_{i})

作为 Query 的位置先验，其中

(x_{i},y_{i})

是归一化坐标

\in [0,1]^{2}

，而

(w_{i},h_{i})

与特征

F_{t}

的尺度相关设置。然后，将预测偏差

\hat{b_{i}}=(\Delta b_{ix},\Delta b_{iy},\Delta b_{iw},\Delta b_{ih})

添加到原始 Anchor 框以细化目标 Query 的位置。

Q_{content}=Linear(F_{select}), \tag{6}

Q_{position,bias}=FFN(F_{select}).

由于特征

F_{select}

是从之前CGFE模块生成的

F_{t}

中选择的，它们包含了微小目标的丰富尺度和位置信息。因此，增强的目标 Query 的内容和位置是根据每个图像的拥挤或稀疏情况定制的，使得 Query 在 Transformer 解码器阶段更容易定位微小目标。

Overall Objective

匈牙利损失 基于 DETR，作者使用匈牙利算法在 GT 值和预测之间找到最优的二分匹配并优化损失。匈牙利损失包括用于边界框回归的L1损失和GIoU损失，以及用于分类任务的Focal Loss，其中

\alpha=0.25

，

\gamma=2

，可以表示为方程7。遵循 DAB-DETR 的设置，在作者的实现中使用

\lambda_{1}=5

，

\lambda_{2}=2

，

\lambda_{3}=1

。

L_{hungarian}=\lambda_{1}L_{1}+\lambda_{2}L_{GIoU}+\lambda_{3}L_{focal}. \tag{7}

此外，作者在类别计数模块中使用交叉熵损失来监督分类任务。进一步地，匈牙利损失也作为每个解码器阶段的辅助损失应用。总体损失可以表示为方程8。

L_{total}=L_{hungarian}+L_{aux}+L_{counting}. \tag{8}

4 Experiments

Dataset

为了证明DQ-DETR的有效性，作者在主要由微小目标组成的航空数据集AI-TOD-V2 上进行了实验。

AI-TOD-V2 这个数据集包含28,036张航空图像，带有752,745个标注的目标实例。其中，训练集有11,214张图像，验证集有2,804张，测试集有14,018张。AI-TOD-V2中的平均目标大小仅为12.7像素，数据集中有86%的目标小于16像素，即使最大的目标也不超过64像素。此外，图像中的目标数量可以从1变化到2667，平均每图像的目标数量为24.64，标准差为63.94。

评估指标 作者使用AP（平均精度）指标，以1500为最大检测数量来评估作者提出方法的性能。具体来说，AP是从

\mathrm{AP}_{0.5}

到

\mathrm{AP}_{0.95}

的平均值，IoU间隔为0.05。此外，

\mathrm{AP}_{\mathrm{vt}}

、

\mathrm{AP}_{\mathrm{t}}

、

\mathrm{AP}_{\mathrm{s}}

和

\mathrm{AP}_{\mathrm{m}}

分别用于AI-TOD中非常微小、微小、小型和中型规模的评估。

Implementation Details

基于类似DETR的结构，作者使用了一个6层的 Transformer 编码器、一个6层的 Transformer 解码器，其中隐藏维度为256，并以ResNet50作为CNN Backbone 网络。此外，作者在2块NVIDIA 3090 GPU上使用Adam优化器和权重衰减0.0001来训练DQ-DETR，共训练24个周期。

由于内存限制，批量大小设置为1。对于学习率调度器，初始学习率（lr）为0.0001，在第13和第21个周期时，通过乘以0.1来降低lr。作者采用了与DETR [2]相同的随机裁剪和缩放增强策略。同时，作者采用两阶段训练方案。首先，作者训练分类计数模块，以使 Transformer 解码器中的 Query 数量结果更加稳定。当计数结果稳定后，作者将计数引导的特征增强模块加入到训练中，以通过密度图改善编码器的视觉特征。

Main Results

表1展示了作者在AI-TOD-V2测试集上的主要结果。作者将DQ-DETR与强 Baseline 进行了比较，包括基于CNN和类似DETR的方法。除了YOLOv3之外，所有基于CNN的方法都使用带有特征金字塔网络（FPN）[8]的ResNet50作为主干网络。此外，由于在微小目标检测方面没有先前的类似DETR模型研究，DQ-DETR是首个专注于检测微小目标的DETR-like模型。作者在AI-TOD-V2上重新实现了系列DETR-like模型，除了DETR之外的所有类似DETR方法都使用了5个尺度的特征图与可变形注意力[28]。对于5尺度特征图，特征是从主干网络的第1、2、3和4阶段提取的，并通过下采样第4阶段的输出来添加额外的特征。

表1的结果总结如下，作者提出的DQ-DETR在与其他最先进的方法（包括基于CNN和类似DETR的方法）相比，实现了最佳的30.2 AP。同时，DQ-DETR在

\rm AP_{vt}

、

\rm AP_{t}

、

\rm AP_{s}

、

\rm AP_{m}

上分别超过了 Baseline 20.5%、20.6%、14.1%和12.3%。在

\rm AP_{vt}

和

\rm AP_{t}

上的性能提升更为显著，DQ-DETR在AI-TOD-V2上超越了先进的一系列类似DETR模型。

作者将性能提升归功于以下原因：

DQ-DETR将 Transformer 视觉特征与来自分类计数模块的密度图融合，以提高目标 Query 的位置信息，这使得 Query 更适合于定位微小目标。
动态 Query 选择自适应地选择用于检测任务的目标 Query 数量，并且能够处理目标稀少或拥挤的图像。

Ablation Study

分类计数模块、计数引导的特征增强以及动态 Query 选择是本文新提出的主要贡献。作者在AI-TODv2 trainval集上使用ResNet50 Backbone 网络进行24个周期的训练，并在AI-TODv2测试集上进行测试，以验证本文提出的每个组件的有效性。选择DINO-DETR作为比较的DETR-like Baseline 。

4.4.1 Main ablation experiment

表2展示了作者在AI-TODv2上分别对各个贡献的性能评估。结果表明，DQ-DETR中的每个组件都对性能提升有所贡献。通过计数模块和动态 Query 选择，作者在 Baseline 上获得了+2.2 AP的改进。此外，作者的计数引导特征增强模块将编码器的特征与来自计数特征的空间信息融合。相对于 Baseline ，它在

\mathrm{AP}

、

\mathrm{AP}_{\mathrm{vt}}

和

\mathrm{AP}_{\mathrm{t}}

上分别获得了额外的+4.3、+2.6和+5.2改进。因此，作者在AI-TOD-V2上证明了DQ-DETR中每个组件的强大功效。

4.4.2 Ablation of DQ-DETR with different number of instances in images

作者探讨了在不同图像实例数量下，DQ-DETR的性能。根据图像中的实例数量，作者将AI-TOD-V2数据集划分为4个 Level ，如同类别计数模块中的那样，即，10<n\leq 100100的情况下，由于这种情况下的训练图像数量少得多，作者的类别计数模块的分类性能较差，准确率仅为56.6%。作者还观察到，在AI-TOD-V2数据集中，每幅图像最多有2267个实例。然而，训练样本的长尾分布限制了作者更详细地分类每幅图像的实例数量。作者别无选择，只能将500<n\leq 2267

至于检测准确性，DQ-DETR在所有情况下都超过了 Baseline 。对于和10500N>500

表5比较了在类别计数模块中使用分类或回归的DQ-DETR的性能。传统的群体计数方法通常将预测的计数数量回归到一个特定值。然而，在作者的研究中，作者使用分类头代替。这个实验展示了在这两种方法下，DQ-DETR的性能。对于分类任务，作者将图像分为4个类别，并在变换解码器中应用不同数量的 Query ，如前一部分所述。对于回归任务，作者直接回归一个整数来预测图像中的目标数量。

结果表明，使用回归作为计数方法的性能极差。作者认为以下原因是性能急剧下降的原因：

由于AI-TOD-V2数据集中每幅图像的实例数量可能从1变化到2267，因此很难回归一个准确的数字。
不稳定的回归结果将极大地影响变换解码器中使用的 Query 数量，并导致DETR模型难以收敛。

由于上述原因，作者认为将图像中存在的目标数量分类到不同 Level 比回归要简单。因此，在提出的类别计数模块中，作者选择分类而不是回归作为更合适的方法。

Visualization

图3展示了DQ-DETR与Deformable-DETR的检测特征图对比。作者可以观察到，DQ-DETR生成了更有信息量的特征来检测小物体。相比之下，来自Deformable-DETR的特征缺少实例信息，导致许多物体未被检测到（FN）。此外，由于Deformable-DETR使用了大量位置信息未经精细调整的目标 Query 来检测小物体，因此在检测结果中存在许多假阳性。

5 Conclusion

在本文中，作者分析了为什么之前的类似DETR的方法不适用于航空数据集，并提出了一种新的端到端的转换检测器DQ-DETR，它包含了分类计数模块、计数引导的特征增强和动态 Query 选择。DQ-DETR动态调整用于检测的目标 Query 的数量，以解决不同航空图像之间实例数量不平衡的问题。同时，作者改进了 Query 的位置信息，从而使解码器更容易定位小物体。DQ-DETR是首个专注于小目标检测的DETR-like模型，在AI-TOD-V2上达到了30.2%的

\rm{AP}

，这是目前的最先进水平。

结果显示，作者提出的DQ-DETR在检测小物体方面的性能有所提高，在使用ResNet50作为基础网络的情况下，在AI-TOD-V2数据集上超过了所有之前的基于CNN的检测器和类似DETR的方法。