地平线最新！Sparse4D v3：进一步提升端到端3D检测与跟踪任务（双SOTA！）

文章来源：企鹅号 - 焉知汽车

个人理解&&写在前面

自动驾驶感知系统中，3D检测和跟踪是两项基本任务。v3版本在Sparse4D的基础上对该领域进行了更深入的研究。主要引入了两个辅助训练任务（时态实例去噪和质量估计），并提出了解耦注意力来进行结构改进，从而显著提高检测性能。此外，还使用一种简单的方法将检测器扩展到跟踪器中，该方法在推理过程中分配实例ID，进一步突出了基于Query算法的优势。这一段话中间开始可以改成该方法在推理过程中通过直接分配实例id的方式实现跟踪。和现有的端到端跟踪方法（如motr系列）相比，sparse4d v3中无需加入任何针对跟踪的训练策略，进一步突出了基于稀疏实例的时序算法的优势。在nuScenes上以ResNet50为主干，mAP、NDS和AMOTA的提升分别为3.0%、2.2%和7.6%，达到了46.9%、56.1%和49.0%。Best Model在nuScenes测试集上获得了71.9%的NDS和67.7%的AMOTA。

一句话总结下：Sparse4D-v3包含三种有效的策略--时间实例去噪、质量估计和解耦注意力，这也是将Sparse4D扩展到端到端跟踪模型中的尝试！在检测和跟踪任务中都实现了SOTA！

Sparse4D框架回顾

在时序多视角感知研究领域，基于稀疏的算法取得了重大进展，达到了与基于dense-BEV-based算法相当的感知性能，同时提供了几个优势：

1、无需视角变换模块。这些稀疏方法消除了将图像空间转换为3D矢量空间的模块。

2、检测头中的恒定计算负载，与感知距离和图像分辨率无关。

3、更容易地实现对下游任务进行端到端方式的集成。

这里选择了稀疏算法Sparse4Dv2作为改进的基线算法。该算法的总体结构如图1所示，图像编码器将多视图图像转换为多尺度特征图，解码器利用这些图像特征来细化实例并生成感知结果。

与基于密集的算法相比，基于稀疏的算法在收敛方面遇到了更大的挑战，最终影响了它们的最终性能。这个问题已经在2D检测领域进行了深入的研究，主要归因于一对一正样本匹配的使用。这种匹配方法在训练的初始阶段是不稳定的，并且与一对多匹配相比正样本数量大幅减少，从而降低解码器训练的效率。

此外，Sparse4D利用稀疏特征采样而不是全局交叉注意力，由于正样本的特征采样点稀少，进一步阻碍了编码器的收敛。在Sparse4Dv2中，引入了密集深度监督，一定程度缓解图像编码器面临的这些收敛问题。v3主要目的是通过关注解码器训练的稳定性来提高模型性能。将去噪任务作为辅助监督，并将去噪技术从2D单帧检测扩展到3D时序检测。它不仅确保了稳定的正样本匹配，而且显著增加了正样本的数量。此外，还引入了质量评估作为辅助监督的任务。这使得输出置信度更加合理，提高了检测结果排名的准确性，从而得到更高的评估指标。并且，我们还改进了Sparse4D中实例自注意和时序交叉注意模块的结构，提出了一种解耦的注意机制，旨在减少注意力权重计算过程中的特征干扰。

如图3所示，当anchor嵌入和实例特征被添加为注意力计算的输入时，在产生的注意力权重中存在异常值的实例。这不能准确地反映目标特征之间的相互关联，导致无法聚合正确的特征。通过用特征拼接代替特征相加，显著减少了这种错误现象的发生。这种改进与Conditional DETR有相似之处。然而，关键的区别在于这里强调query之间的注意力，而不是Conditional DETR，后者专注于query和图像特征之间的交叉注意力。

当前背景介绍

DETR采用了Transformer架构以及一对一匹配训练方法，以消除对NMS的需求并实现端到端检测。DETR带来了一系列后续改进。Deformable DETR基于参考点将全局注意力变为局部注意力，显著缩小了模型的训练搜索空间，提高了收敛速度。它还降低了注意力的计算复杂性，便于在DETR框架内使用高分辨率输入和多尺度特征。Conditional DETR引入了条件交叉注意力，将query中的内容和空间信息分离，并通过点积独立计算注意力权重，从而加速模型收敛。基于Conditional DETR，Anchor DETR显式初始化参考点，用作anchor。DAB-DETR进一步将边界框维度包括在anchor的初始化和空间查询的编码中。此外，许多方法旨在从训练匹配的角度提高DETR的收敛稳定性和检测性能。DN-DETR使用添加的噪声对真值进行编码，作为解码器的query，采用去噪任务进行辅助监督。在DN-DETR的基础上，DINO引入了噪声负样本，并提出使用混合查询选择进行查询初始化，进一步提高了DETR框架的性能。Group DETR在训练期间将query复制到多个组中，从而提供更多的训练样本。Co-DETR在训练过程中结合了密集的Head，具有两个作用，既能够对主干进行更全面的训练，也能通过使用密集头输出作为query来增强解码器的训练！

DETR3D将可变形注意力应用于multi-view 3D检测，通过空间特征融合实现端到端的3D检测。PETR系列引入了3D位置编码，利用全局注意力进行直接多视图特征融合并进行时间优化。Sparse4D系列在实例特征解耦、多点特征采样、时序融合等方面增强了DETR3D，从而增强了感知性能。

大多数多目标跟踪（MOT）方法使用检测+跟踪框架。它们依赖于检测器输出来执行数据关联和轨迹过滤等后处理任务，从而产生了一个具有大量超参数的复杂pipeline，需要进行调整。这些方法并没有充分利用神经网络的能力,为了将跟踪功能直接集成到检测器中，GCNet、TransTrack和TrackFormer利用了DETR框架。它们基于track query将检测得的目标进行帧间传输，显著降低了后处理的依赖性，MOTR将跟踪推进到一个完全端到端的过。MOTRv3解决了MOTR的detection query训练的局限性，从而带来了实质性的改进（在跟踪性能方面）。MUTR3D将这种基于查询的跟踪框架应用于3D多目标跟踪领域。这些端到端跟踪方法有一些共同的特点：

（1）在训练过程中，根据跟踪目标约束匹配，确保track query的ID匹配一致，detection query只匹配新目标。

（2）使用高阈值来传输时间特征，只将高置信度查询传递到下一帧。

v3方法与现有方法不同，不需要修改检测器训练或推理策略，也不需要跟踪ID的ground truth。

方法介绍

网络结构和推理框架如图1所示！展示了Sparse4Dv2的网络结构和推理pipeline，这里将首先介绍两个辅助任务：时序实例去噪和质量估计，紧接着介绍注意力模块的增强，称为解耦注意力，最后概述了如何利用Sparse4D实现3D MOT。

1）Temporal 实例去噪

在2D检测中，引入去噪任务被证明是提高模型收敛稳定性和检测性能的有效方法。v3将基本的2D单帧去噪扩展到3D时序去噪。在Sparse4D中，实例（也可称为query）被解耦为隐式实例特征和显式anchor，在训练过程中初始化了两组anchor。一个集合包括均匀分布在检测空间中的anhcor，使用k-means方法初始化，并且这些anchor用作可学习参数。另一组anchor是通过将噪声添加到GT中来生成的。对于3D检测任务，噪声anchor生成如方程（1，2）所示

此外，通过时序传播扩展了上述单帧噪声实例，以更好地与稀疏递归训练过程保持一致。在每帧的训练过程中，从有噪声的实例中随机选择M′组投影到下一帧。时间传播策略与无噪声实例的策略一致：anchors进行自车pose和速度补偿，而实例特征直接作为后续帧特征的初始化。

需要注意的是，这里保持每组实例的相互独立性，并且在噪声实例和正常实例之间不会发生特征交互。这与DN-DETR不同，如图4（b）所示。这种方法确保在每组中，一个GT最多与一个正样本匹配，有效地避免了任何潜在的歧义！

2）质量估计

现有的基于稀疏的方法主要估计正样本和负样本的分类置信度，以测量与GT的一致性。优化目标是最大化所有正样本的分类置信度。然而，匹配质量在不同的正样本中存在显著差异，因此分类置信度不是用于评估预测边界框的质量的理想度量。为了便于网络理解正样本的质量，一方面加快收敛，另一方面合理化预测ranking ，这里引入了预测质量估计的任务。对于3D检测任务，定义了两个质量指标：centerness和yawness，公式如下：

在网络输出分类置信度的同时，它还估计了centerness和yawness，它们各自的损失函数为交叉熵损失和focal loss，如以下方程所示：

3）Decoupled Attention

v3对Sparse4Dv2中的anchor编码器、自注意和时间交叉注意进行了简单的改进，该体系结构如图5所示。设计原则是以拼接的方式结合不同模态的特征，而不是使用加法。与Conditional DETR相比，存在一些差异。首先，改进了查询之间的注意力，而不是查询和图像特征之间的交叉注意力；交叉注意力仍然利用来自Sparse4D的可变形聚集。此外，没有在单头注意力级别连接位置嵌入和查询特征，而是在多头注意力级别进行外部修改，为神经网络提供了更大的灵活性！

4）扩展到跟踪部分

在Sparse4Dv2的框架中，时序建模采用了递归形式，将前一帧的实例投影到当前帧上作为输入。时序实例类似于基于query的跟踪器中的track query，不同之处在于track query受到更高阈值的约束，表示高度自信的检测结果。相比之下，v3的时序实例很多，其中大多数可能无法准确地表示先前帧中检测到的目标。

为了在Sparse4Dv2框架内从检测扩展到多目标跟踪，我们直接将实例从检测边界框重新定义为轨迹。轨迹包括ID和每个帧的边界框。由于设置了大量冗余实例，许多实例可能不与精确目标相关联，并且不被分配明确的ID。尽管如此，它们仍然可以传播到下一帧。一旦实例的检测置信度超过阈值T，就认为它被锁定在目标上并被分配了ID，该ID在整个时间传播过程中保持不变。因此，实现多目标跟踪就像将ID分配过程应用于输出感知结果一样简单。跟踪过程中的生命周期管理由Sparse4Dv2中的top-k策略无缝处理，无需额外修改，具体可参考算法1。我们观察到，训练好的时序模型不需要使用跟踪约束进行微调，就已经表现出优异的跟踪特性。

实验分析对比

为了验证Sparse4Dv3的有效性，这里使用了nuScenes基准测试，它是一个包含1000个场景的数据集。训练、验证和测试分别包含700、150和150个场景。每个场景以2帧（FPS）的20秒视频剪辑为特征，并包括6个view图像。除了3D框标签外，该数据集还提供了有关车辆运动状态和摄像头参数的数据。对于检测性能评估，综合方法考虑了mAP、mATE、mASE、mAOE、mAVE、mAAE和NDS等指标，其中NDS表示其它指标的加权平均值。对于跟踪模型评估，关键指标包括AMOTA、AMOTP、召回和ID切换（IDS）。

nuScenes验证数据集上的3D检测结果：

nuScenes测试数据集上的3D检测结果：

nuscenes上多目标跟踪性能：

后续的一些方向

基于Sparse4D框架，还有相当大的进一步研究潜力：

1、我们进对目标跟踪任务进行初步尝试，跟踪性能还有很大的改进空间；

2、将Sparse4D扩展为以激光雷达输入或多模态输入的模型是比较有前景的方向；

3、在跟踪的基础上引入更多的下游任务（如预测和规划），进一步实现端到端感知；

4、集成额外的感知任务，如在线地图和2D标志&红绿灯检测；

参考

[1] Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

发表于: 2023-11-302023-11-30 22:22:26
原文链接：https://page.om.qq.com/page/O0mk5QR7AeD8a56Th0tppP8Q0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

地平线最新！Sparse4D v3：进一步提升端到端3D检测与跟踪任务（双SOTA！）

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐