前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!

商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!

作者头像
AIGC 先锋科技
发布2024-07-08 13:19:59
1790
发布2024-07-08 13:19:59
举报
文章被收录于专栏:AIGC 先锋科技

稀疏3D检测器自从基于查询的方法范式实现低延迟而无需显式构建密集的鸟瞰图(BEV)特征以来,已经受到了广泛关注。然而,这些检测器的性能比它们的密集型对应物要差。 在本文中,作者发现弥合性能差距的关键在于增强两种模态中丰富表示的意识。在此提出了一种用于端到端多模态3D目标检测的高性能全稀疏检测器,名为SparseLIF。该检测器包含三个关键设计,分别是

  1. 视角感知查询生成(PAQG),以生成带有视角先验的高质量3D查询
  2. 感兴趣区域感知采样(RIAS),通过从每个模态中采样ROI特征来进一步精化先验查询
  3. 不确定性感知融合(UAF),以精确量化每个传感器模态的不确定性,并自适应地执行最终的多模态融合,从而实现对传感器噪声的强大鲁棒性。

在提交之时(2024/03/08),SparseLIF在nuScenes数据集上取得了最先进的性能,在验证集和测试基准上都排名第一,明显优于所有最先进的3D目标检测器。

1 Introduction

基于激光雷达和相机的三维检测对于准确且健壮的自动驾驶系统至关重要。这两种方式自然提供了互补的信息,即相机提供高分辨率的语义信息,而激光雷达提供准确的几何信息。因此,相机和激光雷达传感器已同时部署,用于在三维空间中对物体进行可靠识别和定位。

已经提出了各种方法来彻底探索激光雷达和相机模态中的补偿信息。传统的多模态3D目标检测方法通常将两种模态转换到一个统一的空间中进行特征融合。例如,PointPainting 及其变体使用图像像素特征来装饰原始点云。BEVFusion 将图像视图特征转换为密集的鸟瞰(BEV)空间以与激光雷达特征融合。这种密集范式近年来取得了显著的成功,但受到了繁琐视图转换的限制,导致延迟高、检测距离有限以及性能上限受限。最近的研究引入了一种无显式视图转换的基于稀疏查询的范式。

一些先驱性的稀疏检测器在一阶段或两阶段中使用全局注意力来聚合多模态特征。然而,穷举的全局注意力埋没了稀疏范式的优势,并使得难以利用长期时间信息。近来,一系列研究探索了完全稀疏范式,这种范式无需使用全局注意力和密集的BEV查询。例如,FUTR3D 和 DeepInteraction 使用参考点从两种模态中采样特征。尽管取得了巨大进步,这些方法仍然落后于其密集型对应方法。因此,完全稀疏的多模态检测器是否能够比密集检测器实现更优性能仍然是一个开放的问题。

本文介绍了SparseLIF,这是一种高性能的全稀疏多模态3D目标检测器,其性能优于所有其他密集型对应物和稀疏检测器。SparseLIF通过在三个方面增强对丰富的激光雷达和相机表示的意识,即查询生成、特征采样和多模态融合,从而弥合了性能差距。

  • 首先,作者认为传统的[68]方法,即随机生成查询,将需要在学习将查询提案移向地面真实目标方面付出额外的努力。在这里,作者提出了一个透视感知查询生成(PAQG)模块,以简化学习过程。特别是,PAQG在图像特征上注入了一个轻量级的透视检测器,该检测器由耦合的2D和单目-3D子网络组成,用于预测并将得分最高的3D提案转换为查询提案。这些输入依赖的提案将缩小通往地面真实目标的学习路径,从而增强对高分辨率图像中丰富上下文的意识。
  • 其次,带有透视先验的这些查询将通过RoI感知采样(RIAS)模块与来自两种模态的特征交互。该模块不是依赖于繁琐的全局注意力,而是先定位感兴趣的区域,然后在先验查询的指导下仅在几个参考点处采样互补特征,从而符合全稀疏范式并享受低延迟。
  • 第三,作者观察到在实际场景中,激光雷达和相机通常遭受如图3所示的多种传感器问题,这将使传感器输入变得不可靠和不确定,从而降低多模态检测器的性能。因此,作者提出了不确定性感知融合(UAF)模块,以精确量化每种模态的不确定性,并指导SparseLIF在多模态融合中关注可信的模态,从而对传感器噪声具有很强的鲁棒性。

最后,作者的贡献和成就总结如下:

  1. 作者指出,在稀疏检测器与密集型检测器之间缩小性能差距的关键在于,在三个方面增强对激光雷达和相机特征空间中丰富表示的意识,即查询生成、特征采样和多模态融合。
  2. 作者提出了一种基于激光雷达-相机融合的高性能全稀疏检测器,用于三维目标检测。所提出的框架包含三个关键设计:
    1. 视角感知查询生成(PAQG),它增强了在高分辨率图像丰富上下文中的查询proposals的视角意识;
    2. RoI感知采样(RIAS),它通过在两种模态间采样互补的RoI特征,有效地细化了先前的查询;
    3. 不确定性感知融合(UAF),它在量化模态不确定性的指导下进行最终的多模态融合。
  3. 作者进行了全面的实验来证明作者所提出方法的有效性。正如所看到的,SparseLIF在nuScenes数据集上超越了所有最先进的三维目标检测器,在验证集和测试基准上都排名第一。

2 Related Work

这一部分简要回顾了与以下三个主题最相关的研究工作:基于激光雷达、基于相机以及基于激光雷达与相机融合的3D目标检测。

LiDAR-based 3D Object Detection

激光雷达(LiDAR)提供了准确的几何信息,因此在单模态3D检测领域受到了广泛关注。早期方法直接从原始点云提取特征来预测3D边界框,但在处理大规模点云时复杂度较高。现代方法将无序点转换成结构化格式,如距离视图图,Pillar,体素。然后,主流方法应用基于2D/3D卷积的Head来预测3D边界框。受到Transformer巨大成功的启发,一些近期的研究在特征编码器和3D检测Head中采用了Transformer模块。

Camera-based 3D Object Detection

基于相机的三维目标检测在过去的几年里取得了显著进展,因为与基于激光雷达的方法相比,基于相机的方案具有更低的部署成本。

受到基于激光雷达(LiDAR)的3D检测方法巨大成功的启发,Pseudo-LiDAR 通过深度估计将图像转换为伪激光雷达点云,然后使用基于激光雷达的方法在那些伪点上执行3D目标检测。一系列工作(例如DD3D,FCOS3D 和 CenterNet)进一步提出了端到端的单阶段3D目标检测器,方法是在2D检测器上附加额外的3D边界框回归头。这些方法尝试显式地估计深度以辅助3D检测,但由于深度估计不准确,其性能受限。

为了隐式地融入深度信息,另一系列工作在鸟瞰图(BEV)空间中进行3D检测。LSS预测每个像素的类别深度分布,以将像素特征提升到一个视锥中,然后将所有视锥铺平到BEV网格上。基于LSS,BEVDet和BEVDepth大幅提高了性能。

受到Transformer(transformer)的启发,BEVformer和VideoBEV直接使用交叉注意力从摄像机视图中提取空间特征。在不依赖于深度信息的情况下,显式构建密集的BEV特征仍然限制了推理速度和有效的检测距离。

另一系列工作采用自顶向下的方式,这种方式不会受到显式构建密集BEV特征的困扰。受到DETR的启发,DETR3D通过使用稀疏的3D目标查询对2D特征进行索引,直接在3D空间中操作预测。PETR进一步减轻了索引操作的开销。PETRv2和Stream PETR利用之前帧的时间信息来提升3D目标检测,但是采用了计算成本高昂的全局交叉注意力。Sparse4D和SparseBEV为4D参考点稀疏地采样多帧/视图/尺度特征,然后层次化地融合,从而在不依赖密集视图转换和全局注意力的条件下实现3D检测。

LiDAR-Camera-based 3D Object Detection

近期,基于激光雷达和相机的三维检测技术在利用语义和几何信息以达到令人印象深刻的性能方面取得了巨大成功。早期的方法将原始点云装饰以图像特征,但这牺牲了丰富的上下文信息。"FrustumPointNet"、 "FrustumConvNet" 和 "CenterFusion"将这些图像提案提升到具有明确深度估计的三维视锥中,但由于深度估计不准确,其性能受限。

最近,受到LSS的启发,BEVFusion通过将细粒度的图像特征投射到BEV空间,然后与LiDAR特征进行融合,减少了对深度估计的依赖。AutoAlign通过跨两种模态的特征对齐,进一步保持了实例级别的语义一致性。然而,从图像到BEV空间的显式且密集的视图转换是笨重的(即,高延迟和有限的检测距离),并且对传感器对齐偏差敏感。BEVFusion4D通过融入时间信息进一步提高了性能。EA-LSS增强了物体边缘的深度估计。

近期的工作采用了基于稀疏查询的范式,而无需显式视图转换。"Transfusion" 从激光雷达点获取目标查询,然后使用Transformer块将查询与丰富的图像特征融合。CMT 进一步开发了一个端到端特征交互框架,用于多模态融合。UniTR 引入了一种模态无关的Transformer编码器,以进行统一建模和共享参数。尽管取得了巨大成功,但昂贵的全局注意力掩盖了稀疏范式的优势,并使其难以从长期时间信息中受益。

另一系列研究探讨了全稀疏范式。SparseFusion 在每种模态上设置检测器,并将检测实例的特征进行融合。然而,这种两阶段范式受到了特定于模态检测器性能限制的影响。FUTR3D 通过初始化3D参考点,并将它们投影到所有可用的模态中来采样特征,从而推广了全稀疏范式。尽管这些方法最近取得了不错的性能,但与密集型对应方法相比,仍然存在明显的性能差距。

3 SparseLIF

SparseLIF是一种基于稀疏查询的多模态检测器。作者使用常见的图像骨干网络(例如ResNet,V2-99)和FPN提取多视角/尺度/帧的相机特征,表示为

X_{\text{cam}}=\{\mathcal{X}_{\text{cam}}^{vmt}\}_{v=1,m=1,t=1}^{V,M,T}

,其中

V

M

T

分别表示相机视角、特征尺度和时间帧的数量。

基于作者提出的框架,可以轻松且充分地融入丰富的时间信息。同时,作者使用常见的3D LiDAR骨干网络(例如VoxelNet)和FPN提取多尺度LiDAR特征,表示为

X_{\text{lid}}=\{\mathcal{X}_{\text{lid}}^{r}\}_{r=1}^{R}

,其中

R

表示LiDAR特征尺度的数量。以相机特征作为输入,视角感知查询生成(PAQG)模块(第3.1节)采用耦合的2D和单目-3D图像检测器来预测并生成具有透视先验的高质量3D查询。

然后,这些查询将通过RoI感知采样(RIAS)模块与相机和LiDAR特征交互,以提取用于进一步精化的RoI特征。接下来,不确定性感知融合(UAF)模块(第3.3节)量化了来自两种模态的RoI特征的不确定性,并自适应地进行多模态融合,以进行最终的3D目标预测。

Perspective-Aware Query Generation

近期的工作通常基于在3D空间中随机分布的参考点,锚框或柱体生成查询,并将其作为网络参数进行优化,而不管输入数据如何。然而,在2D检测中已经证明,这种与输入独立的查询将需要额外的努力来学习将查询提案向地面真实目标目标移动。

如图2所示,作者可视化了一个基于查询的3D检测器和一个2D检测器的预测,其中2D检测器通常在远距离和小目标上表现出出色的感知能力。受到2D检测能力的启发,PAQG模块充分利用感知能力生成3D查询,从而辅助最终的3D检测。

在PAQG模块中采用的视角检测器包括耦合的2D(例如FCOS)和单目-3D(例如FCOS3D)子网络。以多视角/尺度图像特征

X_{\text{cam}}

作为输入,单目-3D子网络预测原始的3D属性,即深度

\mathbf{d}

、旋转角度、大小和速度,涵盖不同的视角。同时,2D子网络预测相应的2D属性,即中心坐标

[\mathbf{c_{x}},\mathbf{c_{y}}]

、置信度分数和类别标签。对于每个视角

v

,作者根据相应的相机外参

E_{v}

和内参

I_{v}

,将边界框中心投影到3D空间中,即:

\mathbf{c}^{3D}=E_{v}^{-1}I_{v}^{-1}[\mathbf{c_{x}d},\mathbf{c_{y}d},\mathbf{d },\mathbf{1}]. \tag{1}

三维中心点

\mathbf{c}^{3D}

将与预测的大小、旋转角度和速度结合,形成三维边界框。然后,作者在三维空间内执行非最大值抑制来过滤相交的边界框,并按照置信度分数挑选前

N_{k}

个边界框,通过交叉注意力模块来初始化查询。正式地说,

q_{i}=\frac{1}{|\mathcal{V}|}\sum_{v\in\mathcal{V}}\sum_{m=1}^{M}\mathcal{BS}( \mathcal{X}_{\text{cam}}^{vm},\mathcal{P}_{\text{cam}}^{v}(c_{i}^{3D})), \tag{2}

其中

\mathcal{P}_{\text{cam}}^{v}(c_{i}^{3D})

使用相应的相机参数将3D中心

c_{i}^{3D}

投影到第

v

个图像上。此外,

\mathcal{V}

表示击中视角的集合。

\mathcal{BS}(\cdot)

表示双线性采样函数。由于某些物体可能被忽略,作者保留了

N_{r}

个随机初始化的查询框。最后,PAQG模块生成了总共

N_{q}=N_{k}+N_{r}

个查询proposals。通过这种方式,PAQG模块提供了与输入相关的查询proposals,以提升3D检测器对透视先验的理解,从而有助于检测远距离和小型物体。

RoI-Aware Sampling

RoI感知采样(RIAS)模块负责从每种模态中采样RoI特征,以细化通过PAQG模块用透视先验初始化的查询

Q=\left\{q_{i}\right\}_{i=1}^{N_{q}}\subset\mathbb{R}^{C}

。作者旨在定位感兴趣区域(RoI)进行特征采样,而无需依赖繁琐的全局注意力,从而降低复杂度并从长期时间信息中受益。

3.2.1 LiDAR Branch

受到可变形注意力的启发,作者仅仅从激光雷达特征图

\mathcal{X}_{\text{lid}}

中采样

K=4

个参考点来检索每个查询

q_{i}

的RoI特征集

\{F_{\text{lid}}^{ik}\}_{k=1}^{K}

。正式地说,

F_{\text{lid}}^{ik}=\sum_{r=1}^{R}\mathcal{BS}\left(\mathcal{X}_{\text{lid}}^ {r},\mathcal{P}_{\text{lid}}\left(c_{i}+\Delta_{\text{lid}}^{irk}\right) \right)\cdot\sigma_{\text{lid}}^{irk}, \tag{3}

在全局3D空间中,

c_{i}

是查询

q_{i}

的边界框中心,而

\mathcal{P}_{\text{lid}}

将中心投影到激光雷达鸟瞰图(BEV)空间中。

\mathcal{BS}(\cdot)

表示双线性采样函数。

此外,

\Delta_{\text{lid}}^{irk}

\sigma_{\text{lid}}^{irk}

是使用查询

q_{i}

预测的采样偏移量和注意力权重,以覆盖敏感目标上的感兴趣区域(RoI)。注意,与全局注意力不同,作者仅与映射到参考点的几个特征进行交互,从而采用完全稀疏的范式。

3.2.2 Camera Branch

至于相机分支,作者也采样

K=4

个参考点从相机特征图

\mathcal{X}_{\text{cam}}

的命中视图

\mathcal{V}

中检索RoI特征,即,

F_{\text{cam}}^{itk}=\frac{1}{|\mathcal{V}|}\sum_{v\in\mathcal{V}}\sum_{m=1}^{ M}\mathcal{BS}\left(\mathcal{X}_{\text{cam}}^{vmt},\mathcal{P}_{\text{cam}}^{vt }\left(c_{i}+\Delta_{\text{cam}}^{ivmtk}\right)\right)\cdot\sigma_{\text{cam} }^{ivmtk}, \tag{4}

其中

\mathcal{P}_{\text{cam}}^{vt}(\cdot)

是使用摄像机参数和时间对齐从全球3D空间投影到特征坐标的函数。此外,

\Delta_{\text{cam}}^{ivmtk}

\sigma_{\text{cam}}^{ivmtk}

也是使用查询特征预测的采样偏移量和注意力权重。

3.2.2 Channel-Spatial Correlation Aware Mixing

为了增强查询

q_{i}

在空间和通道维度上的相关性的认识,作者在检索到的特征上注入了AdaMixer。为了方便起见,作者将这些检索到的RoI特征组织为

f\in\mathbb{R}^{S\times C}

,其中

S=K

S=T\times K

,分别对应于激光雷达或相机特征。

首先,作者基于查询

q_{i}

对通道相关性进行建模,并转换特征

f

以增强通道语义:

W_{c} =\text{Linear}(q_{i})\in\mathbb{R}^{C\times C} \tag{5}
\text{M}_{c}(f) =\text{ReLU}\left(\text{LayerNorm}\left(fW_{c}\right)\right), \tag{6}

其中

W_{c}

是在不同时间戳和不同采样点之间共享的通道相关性。接下来,作者将特征进行转置,并将其空间相关性建模到其空间维度上,即,

W_{s} =\text{Linear}(q_{i})\in\mathbb{R}^{S\times S} \tag{7}
\text{M}_{s}(f) =\text{ReLU}\left(\text{LayerNorm}\left(f^{T}W_{s}\right)\right), \tag{8}

其中

W_{s}

是在不同通道间共享的空间相关性。

经过通道-空间相关性感知混合后,特征被展平并通过一个线性层进行聚合。最终的回归和分类预测分别通过两个多层感知机(MLPs)来计算。

Uncertainty-Aware Fusion

给定两种模态下的RoI特征

F_{\text{cam}}

F_{\text{lid}}

,不确定性感知融合(UAF)模块旨在使融合模块具有如图3所示的对传感器噪声的鲁棒性。为此,作者将每种模态的不确定性意识注入到融合模块中,即,

\bar{q}_{i}=f_{UA}(F_{\text{cam}},U_{\text{cam}},F_{\text{lid}},U_{\text{lid}}), \tag{9}

其中,

\bar{q}_{i}

f_{UA}

分别是精炼的查询特征和不确定性感知融合函数。此外,

U_{\text{cam}}

U_{\text{lid}}

是两种模态的不确定性。

受到准确定位在自动驾驶中无可置疑的重要性启发,作者将不确定性表述为预测边界框

B

与真实边界框之间的欧几里得距离的函数。为了方便,令

s\in\{\text{cam},\text{lid}\}

代表一种模态。作者有

U_{s}=1-exp\left(-D^{xy}\left(f_{\text{reg}}(F_{\text{s}}),B\right)\right), \tag{10}

其中

f_{\text{reg}}

是边界框的回归函数,而

D^{xy}

是在BEV空间中的欧氏距离函数。然而,对于模型来说,真实的边界框是不可用的。因此,作者在每个模态的RoI特征上注入了一个距离预测器,然后将方程式(10)重写为。

\hat{U}_{s}=1-exp\left(-f_{\text{dist}}(F_{\text{s}})\right), \tag{11}

其中

f_{\text{dist}}

是由多层感知机(MLPs)组成的距离预测器。

至于不确定性感知融合函数

f_{UA}

,作者简单地将其表述为通过不确定性加权的特征串联,并将方程(9)重写为。

\bar{q}_{i}=FFN\left(Cat\left(F_{\text{cam}}\cdot(1-\hat{U}_{\text{cam}}),F_{ \text{lid}}\cdot(1-\hat{U}_{\text{lid}})\right)\right), \tag{12}

其中

Cat

FFN

分别表示连接函数和前馈网络。通过这种方式,UAF模块量化了每种模态的不确定性

U

,并指导SparseLIF专注于可信赖的模态,从而在传感器噪声方面具有鲁棒性。

4 Experiments

本节提供了实验设置和结果。作者进行了详细的消融研究,以验证在SparseLIF中的设计选择。同时,作者还证明多模态检测器在面对传感器噪音时具有出色的鲁棒性。

总之,在流行的nuScenes基准上,作者将SparseLIF与其他最先进的3D目标检测器进行了比较。结果显示,SparseLIF性能卓越,在验证集和测试基准上均排名第一。

Experimental Setups

4.1.1 Implementation Details

作者使用基于PyTorch的开源MMDetection3D 实现了SparseLIF。检测范围在XY轴上为

[-54m,54m]

,在Z轴上为

[-5m,3m]

。作者采用由FCOS3D 预训练的V2-99 作为图像骨干网络,输入图像大小为

1600\times 640

。作者采用VoxelNet 作为激光雷达骨干网络,体素大小为

(0.075m,0.075m,0.2m)

总的查询数量

N_{q}

为900,其中包括由PAQG模块生成的

N_{k}=200

个查询。透视检测器是通过耦合的FCOS 和FCOS3D 子网络实现的。轻量级距离预测器

f_{dist}

是通过一个两层FFN实现的。解码器重复

L=6

次。

在以下实验中,作者报告了两种SparseLIF检测器的最新性能:单帧检测器_SparseLIF-S_(

V=6

M=4

R=4

T=1

),时间多帧检测器_SparseLIF-T_(

V=6

M=4

R=4

T=13

)。

每个模型都是使用AdamW优化器在8块NVIDIA Tesla-A100 GPU上进行端到端训练,总批处理大小为8。为了公平比较,作者采用了在稀疏检测头中常用的查询去噪策略,以解决不稳定的匹配问题。每个模型以

2e-4

的学习率训练24个周期。

4.2.1 Datasets and Evaluation Metrics

作者在流行的nuScenes数据集上进行了实验,以评估作者提出的自动驾驶中3D目标检测方法的性能。nuScenes数据集包含了来自分布在波士顿和新加坡的1000个场景中的

40,157

个样本的1.4百万个3D检测标注框。每个样本都是通过六个摄像头和一个32线激光雷达传感器收集的。实验中,作者采用了nuScenes检测评估指标

NDS

和十类别的

mAP

Comparisons with State-of-the-Art 3D Object Detectors

如表1顶部所示,在不使用任何测试时增强(TTA)或模型集成的情况下,_SparseLIF-T_实现了最先进的单一模型性能,在nuScenes测试基准上达到77.0%

NDS

,显著优于所有其他3D检测器。特别是,在没有使用任何外部训练数据的情况下,作者比最具竞争力的方法FusionFormer高出1.9%

NDS

关于表1底部的测试基准排行榜,许多有竞争力的方法采用了非常复杂的模型集成(例如,组合了不同体素尺寸、BEV尺寸、主干网络/FPN/Head)和TTA,以争取在测试排行榜上取得最高排名,例如,之前排名第一的方法EA-LSS通过这种方式比其单一模型提高了3.2%

NDS

。相反,作者仅为_SparseLIF-T_使用非常简单的自模型集成,不采用TTA(即0.7%

NDS

的提升),在提交时取得了最好的77.7%

NDS

性能,并在测试排行榜上排名第一。

SparseLIF是首批具有时间感知能力的基于激光雷达和相机的3D检测器之一,而大多数方法在集成时间信息方面要么无能为力,要么没有能力,这导致了次优的性能。为了公平比较,作者还将在nuScenes验证集上,将单帧检测器_SparseLIF-S_与其他不考虑时间的方法进行了比较。

如表2的顶部所示,SparseLIF-S 也以显著的优势(1.4%

NDS

)超过了最佳竞争者。此外,如表2的底部所示,多帧检测器 SparseLIF-T 在验证集上达到了77.5%的

NDS

,明显优于其他所有方法至少3.4%。

作者还对nuScenes数据集进行了延迟分析。作者使用Pytorch实现了SparseLIF,没有使用任何加速操作。_SparseLIF-S_的整体延迟为

340ms

,而BEVFusion的整体延迟为

1610ms

,在相同设备上比作者慢4.7倍。

具体来说,检测头(包括PAQG模块、RIAS模块和UAF模块等)仅耗时约

40ms

\approx 11.8\%

),而相机和LiDAR主干网络占据了剩余的时间,这证明了作者检测器的效率。作者可以通过配置主干网络来进一步加速检测器。

Ablation Studies

在表3中,作者在nuScenes验证集上进行了消融研究,以评估作者多模态框架中的关键组成部分,基于最先进的单帧检测器_SparseLIF-S_,它提供了高度令人信服的证据。采用PAQG模块生成高质量的查询提案,

mAP

NDS

分别提高了1.2%和1.0%。采用UAF模块进行多模态融合,

mAP

NDS

分别提高了0.7%和0.8%。当_SparseLIF-S_组装了这两个模块时,达到了最佳性能:71.2%

mAP

和74.6%

NDS

作者进一步深入分析了作者提出的PAQG模块,揭示了基于最先进的单帧检测器_SparseLIF-S_在检测距离和小目标类别上的有效性。正如表4所示,PAQG模块大大促进了远距离目标的检测,例如,对于超过30米远的目标,检测精度提高了1.6%mAP。

对于小目标,PAQG模块也在所有距离范围内显著提高了交通锥和障碍物的AP分数,例如,在20-30米范围内,障碍物的AP提高了8.6%。作者将性能的提升归因于所提出的PAQG模块增强了对丰富上下文和透视先验的意识。

Robustness Studies

为了验证作者多模态框架的鲁棒性,作者在激光雷达/相机故障以及不同步的场景下评估了SparseLIF:

有限的视场(FOV)。作者通过过滤掉激光雷达点来模拟

120^{\circ}

180^{\circ}

的有限视场角。

目标失效。借鉴BEVFusion的方法,作者通过选择50%的帧来模拟这种情况,在这些选择的帧中,每个帧有50%的目标点被丢弃。

前部遮挡。遵循BEVFusion的方法,作者通过将整个前置摄像头图像填充为零值来模拟这种遮挡情况。

停滞。两个传感器的时间戳可能并不总是同步的,导致数据停滞,例如,检测器在时间t错误地接收到了时间戳为

t-1

的数据。遵循BEVFusion的方法,作者在50%的帧上模拟了这种不同步的情况。

作者直接在这些场景下评估SparseLIF-T模型,无需任何适应或微调。正如表5所示,UAF模块在最具挑战性的激光雷达故障场景(顶部),即有限的

120^{\circ}

视角下,将鲁棒性性能提升了3.1%

NDS

。同时,SparseLIF在摄像头故障(中部)和非同步(底部)场景下也获得了0.6%

NDS

的鲁棒性提升。实验结果令人信服地证明了作者检测器针对传感器噪声的能力。

作者进一步可视化了在LiDAR视场角限制在最具挑战性的

120^{\circ}

情况下,SparseLIF的预测结果。如图4所示,即使在使用故障的LiDAR输入时,SparseLIF也能精确地检测到金色圆圈内的物体,这展示了作者多模态检测器由于所提出的UAF模块而具有的显著鲁棒性。

5 Conclusion

本文提出了一种名为SparseLIF的高性能全稀疏检测器,用于基于激光雷达-相机融合的3D目标检测。所提出的检测器通过增强两种模态中丰富表征的感知,实现了最先进性能。特别是,SparseLIF包括:

  1. PAQG模块,它生成带有透视先验的高质量3D查询,以促进对小型和远距离物体的感知;
  2. RIAS模块,它通过RoI特征采样进一步精化先前的查询,以实现全稀疏范式,具有低延迟和整合更多时间帧的能力;
  3. UAF模块,它量化了每种模态的不确定性,以进行多模态融合,增强对传感器噪声的感知鲁棒性。

实验结果表明,在nuScenes基准测试上,作者提出的方法优于所有最先进的3D目标检测器。未来,作者将探索SparseLIF在其他任务上的应用,例如占用预测。

参考

[1].SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
    • LiDAR-based 3D Object Detection
      • Camera-based 3D Object Detection
        • LiDAR-Camera-based 3D Object Detection
        • 3 SparseLIF
          • Perspective-Aware Query Generation
            • RoI-Aware Sampling
              • 3.2.1 LiDAR Branch
              • 3.2.2 Camera Branch
              • 3.2.2 Channel-Spatial Correlation Aware Mixing
            • Uncertainty-Aware Fusion
            • 4 Experiments
              • Experimental Setups
                • 4.1.1 Implementation Details
                • 4.2.1 Datasets and Evaluation Metrics
              • Comparisons with State-of-the-Art 3D Object Detectors
                • Ablation Studies
                  • Robustness Studies
                  • 5 Conclusion
                  • 参考
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档