前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !

​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !

作者头像
AIGC 先锋科技
发布2024-07-08 13:04:51
1670
发布2024-07-08 13:04:51
举报
文章被收录于专栏:AIGC 先锋科技

将激光雷达和相机信息整合到鸟瞰图(BEV)表示中,已成为自动驾驶中3D目标检测的一个关键方面。然而,现有方法容易受到激光雷达与相机传感器之间不准确校准关系的影响。 这种不准确导致相机分支在深度估计上出现误差,最终导致激光雷达和相机BEV特征之间的错位。在这项工作中,作者提出了一种健壮的融合框架,名为GraphBEV。 针对由不准确点云投影引起的误差,作者引入了一个LocalAlign模块,通过图匹配利用邻居感知的深度特征。此外,作者还提出了一个GlobalAlign模块,以纠正激光雷达和相机BEV特征之间的错位。 作者的GraphBEV框架取得了最先进的表现,在nuScenes验证集上的mAP达到了70.1%,比BEVFusion高出1.6%。重要的是,在错位噪声条件下,作者的GraphBEV比BEVFusion性能高出8.3%。

1 Introduction

三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。

特征错位是实际应用中多模态3D目标检测的一个重大挑战,主要由LiDAR和相机传感器之间的校准矩阵误差引起[12, 49, 70],如图1(a)所示。多模态3D目标检测已经从早期的点 Level [17, 33, 47, 55, 56, 68]和特征 Level [2, 9, 10, 48, 50, 52]方法,发展到目前普遍采用的鸟瞰图(Bird's Eye View, BEV)融合方法,如BEVFusion [29, 34]。尽管在干净的数据集如nuScenes [4]上效果显著,但BEVFusion [34]在错位数据上的性能会下降,如图1(c)所示。这种性能下降主要是由于LiDAR和相机之间的校准误差,且受到如道路振动[70]等因素的加剧。这些固有的误差无法通过在线校准进行纠正,构成了一个重大挑战[12, 70]。

大多数特征 Level 的多模态方法[1, 10, 24, 66, 72]采用交叉注意力来 Query 特定模态的特征,绕开了投影矩阵的使用。一些特征 Level 的多模态方法[9, 19, 22, 23, 48, 50, 69, 71]试图通过投影偏移或邻近投影来减轻这些错误。一些基于鸟瞰图(BEV)的方法,例如ObjectFusion[5],在融合过程中完全摆脱了相机到鸟瞰图的转换,以在不同模态间对齐以目标为中心的特征。MetaBEV[14]利用交叉可变形注意力来处理特征不对齐,但忽略了视图变换中的深度估计误差,仅在激光雷达和相机BEV融合时对齐特征。

BEVFusion [29, 34] 在BEV空间中将相机和LiDAR数据融合在一起,提升了检测能力,但在实际应用中忽略了特征错位问题。这一问题主要表现在两个方面:1) BEVFusion [34] 使用BEVDepth's [26] 从LiDAR到相机的显式深度监督,将多图像特征转换为一个统一的BEV表示。虽然这种LiDAR到相机的策略比LSS [40] 提供的深度更可靠,但它忽略了现实场景中LiDAR与相机之间的错位,导致局部错位。2) 在LiDAR-相机BEV融合中,由于深度不准确导致的BEV特征错位问题被忽视了,正如BEVFusion [34] 文本中描述的那样,直接连接表示并应用基本卷积,导致全局错位

在这项研究中,作者提出了一种健壮的融合框架,命名为GraphBEV,以解决上述特征错位问题。为了解决相机到BEV转换中的局部错位问题,作者提出了一个LocalAlign模块,该模块首先在BEVFusion方法[34]的相机分支的视图转换步骤中通过图获取邻近深度信息,基于LiDAR到相机投影提供的显式深度。随后,作者提出了一个GlobalAlign模块,通过双重深度编码来编码LiDAR到相机的投影深度和邻近深度,生成一个新的可靠深度表示,融入了邻近信息。

此外,为了解决LiDAR和相机BEV特征融合中的全局错位问题,作者通过动态生成偏移量有效地解决了两种BEV特征表示之间的全局错位问题。为了验证GraphBEV的有效性,作者在一个知名的3D目标检测基准nuScenes数据集上对其进行了评估。作者的GraphBEV不仅在干净环境下取得了最先进(SOTA)的性能,而且在Dong等人[12]提供的非对齐噪声环境的nuScenes数据集上,比BEVFusion性能高出超过8.3%。值得注意的是,与干净环境相比,作者的GraphBEV在噪声环境下性能下降非常轻微。特别地,作者的GraphBEV通过解决传感器标定误差,增强了基于BEV方法的现实世界适用性[29; 34]。作者的贡献总结如下:

作者提出了一种健壮的融合框架,命名为GraphBEV,以解决由激光雷达和相机输入间投影误差引起的特征错位问题。

通过深入分析特征错位的基本原因,作者在GraphBEV中提出了LocalAlign和GlobalAlign模块,以解决由于精确深度不准确导致的局部错位以及激光雷达和相机BEV特征之间的全局错位问题。

广泛的实验验证了作者GraphBEV的有效性,在nuScenes数据集上展示了具有竞争力的性能。值得注意的是,GraphBEV在干净环境和错位的噪声条件下都能保持相当的性能。

2 Related Work

LiDAR-based 3D Object Detection

基于LiDAR的三维目标检测方法可以根据点云表示分为三种主要类型:基于点的方法、基于 Voxel 的方法和基于点- Voxel 的方法。基于点的方法[41, 42, 43, 27, 45]扩展了PointNet[42, 43]的原则,直接使用堆叠的多层感知器(MLPs)处理原始点云以提取点特征。基于 Voxel 的方法[73, 61, 8, 57, 61]通常将点云转换为 Voxel ,并应用3D稀疏卷积进行 Voxel 特征提取。此外,PointPillars[21]将不规则的原始点云转换为柱状结构,并在2D主干网络上进行编码,实现了非常高的每秒帧数(FPS)。一些基于 Voxel 的方法[13, 15, 36]在 Voxel 化后进一步利用Transformers[54]捕捉长距离 Voxel 关系。基于点- Voxel 的方法[51, 37, 44, 35, 65]结合了基于 Voxel 和基于点的方法,使用这两种方法从点云的不同表示中提取特征,尽管计算需求增加了,但提高了准确性。

camera-based 3D Object Detection

基于相机的3D目标检测方法在学术界和工业界越来越受到关注,这主要是因为与LiDAR相比,相机传感器的成本显著降低[49]。早期方法[3, 46, 60]主要关注在2D目标检测器中增加额外的3D边界框回归头。自从LSS[40]通过“提升,涂抹”(Lift, splat)将多视图信息统一到鸟瞰图(BEV)上以来,基于相机的现有方法已经迅速发展。像BEVDepth[26]这样的基于LSS的方法[25, 26, 38, 40, 63, 64]从多视图图像中提取2D特征,并在将多视图特征统一到BEV上之前,通过激光雷达到相机的投影提供有效的深度监督。后续工作[25, 38]引入了多视图立体技术来提高深度估计的准确性,并达到最新的性能水平。此外,受到基于 Transformer 架构(如DETR[6]和Deformable DETR[75])在2D检测中成功的启发,基于 Transformer 的检测器已经出现在3D目标检测中。继DETR3D[59]之后,这些方法设计了一套目标 Query [30, 31, 18]或BEV网格 Query [62, 28],然后通过 Query 与图像特征之间的交叉关注执行视图转换。

Multi-modal 3D Object Detection

多模态3D目标检测指的是使用来自不同传感器的数据特征,并将这些特征整合以实现互补性,从而实现对3D目标的检测。之前的多种模态方法可以通过融合大致分为三种类型,即点 Level 、特征 Level 和基于鸟瞰图(BEV)的方法。点 Level [33, 47, 55, 56, 68, 17]和特征 Level [2, 9, 10, 48, 50, 52]通常利用图像特征来增强激光雷达点或3D目标 Proposal 。基于BEV的方法[5, 14, 29, 34]高效地将激光雷达和摄像机的表示统一到BEV空间中。尽管BEVFusion [29, 34]取得了高性能,但它们通常是在像nuScenes [4]这样的干净数据集上进行测试,忽视了现实世界的复杂性,特别是特征错位问题,这阻碍了它们的应用。

3 Method

为了解决先前基于鸟瞰图(BEV)方法[29, 34]中的特征错位问题,作者提出了一个健壮的融合框架,命名为GraphBEV。作者在图2中提供了作者框架的概览。该框架接收来自不同传感器(包括激光雷达和摄像头)的输入,首先应用特定于模态的编码器,Swin-Transformer [32]作为摄像头编码器,Second [61]作为激光雷达编码器,以提取它们各自的特征。然后,通过作者提出的LocalAlign模块,将摄像头特征转换为摄像头BEV特征,旨在减轻先前基于BEV方法[29, 34]中摄像头到BEV过程中由于激光雷达与摄像头之间的投影误差引起的局部错位。随后,激光雷达特征沿Z轴压缩,将3D特征表现为2D激光雷达BEV特征。接下来,作者提出了一个GlobalAlign模块,进一步减轻不同模态(包括激光雷达和摄像头BEV特征)之间的全局错位。最后,作者附加了检测Head[1]以完成3D检测任务。作者的 Baseline 是BEVFusion [34],在之下作者将详细介绍LocalAlign和GlobalAlign模块的引入。

LocalAlign

为了便于将相机特征转换为鸟瞰图(BEV)特征,BEVFusion [29, 34]采用了基于LSS [40]的方法,例如BEVDepth [26]利用激光雷达到相机的技术来提供投影深度,从而实现深度与图像特征的融合。在相机到BEV的过程中,BEVFusion [34]和BEVDepth [26]基于一个假设:由激光雷达到相机投影提供的深度信息是准确可靠的。然而,它们忽略了现实世界场景中固有的复杂性,大多数激光雷达与相机之间的投影矩阵是手动校准的。这种校准不可避免地引入了投影误差,导致深度错位——即周围邻居的深度被投影为像素的深度。这种深度错位导致深度特征中的不准确,造成在多视角转换为BEV表示时的错位。鉴于基于LSS的方法[26, 40]依赖于具有细节不精确性的像素级特征进行深度估计,这导致了相机BEV特征中的局部错位。这凸显了确保BEVFusion [34]中精确深度估计的挑战,并强调了需要稳健的方法来解决投影误差。

作者提出了一种局部对齐(LocalAlign)模块来解决局部错位问题,其流程在图3中有所展示。具体来说,激光雷达到相机的映射提供了投影深度,定义为

D_{S}\in\mathbb{R}^{B_{S}\times N_{C}\times 1\times H\times W}

,其中

B_{S}

表示批处理大小,

N_{C}

指的是多视图的数量(在nuScenes的情况下为六个),

H

W

分别是图像的高度和宽度。从激光雷达到相机的投影将3D点云映射到图像平面上,从中作者可以获得投影像素的索引,定义为

M_{\text{Coords}}\in\mathbb{R}^{N_{P}\times 2}

,其中

N_{P}

指的是映射到像素上的点的数量,而2表示如下所示的像素坐标

(u,v)

z_{c}\begin{bmatrix}u\\ v\\ 1\end{bmatrix}=h\mathcal{K}\left[\,R\;T\,\right]\begin{bmatrix}P_{x}\\ P_{y}\\ P_{z}\\ 1\end{bmatrix} \tag{1}

在那里,

P_{x}

,

P_{y}

,

P_{z}

表示激光雷达点的三维位置,

u

,

v

表示相应的二维位置,

z_{c}

代表其在图像平面上投影的深度,

\mathcal{K}

表示相机内参,

R

T

分别表示激光雷达相对于相机参考系的旋转和平移,

h

表示由于下采样引起的缩放因子。

作者采用KD-Tree算法来获取投影像素点的邻居索引,定义为

M_{K_{\text{Coords}}}\in\mathbb{R}^{N_{P}\times K_{\text{graph}}\times 2}

,其中

K_{\text{graph}}

表示每个投影像素点的邻居数量。该过程在算法(1)中有所概述。值得注意的是,作者简化了KD-Tree算法的过程,相关代码可以在scipy5中找到参考。然后,通过使用

M_{\text{Coords}}

索引

D_{S}

,作者得到周围的邻居深度

D_{K}\in\mathbb{R}^{B_{S}\times N_{C}\times K_{\text{graph}}\times H\times W}

。接着,

D_{S}

D_{K}

同时进入双变换模块进行深度特征编码。在输入双变换模块之前,

D_{S}

D_{K}

的形状分别修改为

[B_{S}\times N_{\text{Cam}},1,H,W]

[B_{S}\times N_{\text{Cam}},K_{\text{graph}},H,W]

。该模块包含了一些简单的组件,如图3所示,包括卷积层、批量归一化和ReLU激活函数。这一过程的结果是双深度特征,表示为

D_{\text{SK}}

,其形状为

[B_{S}\times N_{\text{Cam}},C_{\text{SK}},\frac{H}{8},\frac{W}{8}]

。相机编码器从FPN输出多尺度图像特征,包括

(B_{S}\times N_{C})\times C_{\text{Cam}}\times \frac{H}{8}\times\frac{W}{8}

F_{\text{Cam.}}\in\mathbb{R}

以获得更丰富的语义信息,以及一个分辨率降低到

\frac{H}{8},\frac{W}{16}

的特征。作者选择使用分辨率为

\frac{H}{8},\frac{W}{8}

的特征,因为它具有更全面的语义内容。

DepthNet的设计非常直观,如图3所示。作者将

F_{\text{Cam.}}

D_{\text{SK}}

都输入到DepthNet中,以融合深度特征和多视图相机特征。最初,

F_{\text{Cam.}}

D_{\text{SK}}

被连接起来,然后通过三个CBR模块进行处理。这产生了一个新的具有深度感知的相机特征,记为

F_{\text{DC}}\in\mathbb{R}^{(B_{S}\times N_{C})\times C_{\text{DC}}\times \frac{H}{8}\times\frac{W}{8}}

。随后,

F_{\text{DC}}

沿着

C_{\text{DC}}

维度被分为两个新的特征:一个新的深度特征,定义为

\hat{F_{D}}\in\mathbb{R}^{(B_{S}\times N_{C})\times\hat{C_{D}}\times\frac{H}{8} \times\frac{W}{8}}

,以及一个新的图像上下文特征,定义为

\hat{F_{C}}\in\mathbb{R}^{(B_{S}\times N_{C})\times\hat{C_{C}}\times\frac{H}{8} \times\frac{W}{8}}

。需要注意的是

C_{\text{DC}}

=

\hat{C_{C}}

+

\hat{C_{D}}

,这表明将组合特征空间划分为不同的深度和图像特征部分。随后,

\hat{F_{D}}

经过softmax操作,并与

\hat{F_{C}}

相乘,产生了一个带有深度信息的新图像特征,表示为

\hat{F_{\text{DC}}}\in\mathbb{R}^{(B_{S}\times N_{C})\times\hat{C_{C}}\times \hat{C_{D}}\times\frac{H}{8}\times\frac{W}{8}}

。最后,采用与LSS [40]和BEVDepth [26]一致的操作,作者利用预先生成的3D空间坐标和

\hat{F_{DC}}

通过BEV池化来输出相机BEV特征,从而完成相机到BEV的转换,并最终输出相机BEV特征,定义为

F_{B}^{C}\in\mathbb{R}^{B_{S}\times\hat{C_{C}}\times H_{B}\times W_{B}}

GlobalAlign

在现实世界中,由于LiDAR和相机传感器之间校准矩阵的差异,特征错位是不可避免的。尽管LocalAlign模块减轻了相机到鸟瞰图(BEV)过程中的局部错位问题,但在相机BEV特征中仍然可能存在偏差。在LiDAR与相机BEV融合过程中,尽管它们处于同一个空间域,但视图 Transformer 中的深度不准确以及忽视了LiDAR BEV与相机BEV特征之间的全局偏移,导致了全局错位。

为了解决上述全局不对齐问题,作者引入了GlobalAlign模块,使用可学习的偏移量来实现全局多模态BEV特征的对齐。如图2和图4所示,作者使用干净的nuScenes [4]等数据集进行训练,这些数据集展现的偏差可以忽略不计。监督信息来源于LiDAR和相机BEV特征融合及卷积后的特征。在训练过程中,作者引入全局偏移噪声并使用可学习的偏移量。在LiDAR分支中,LiDAR特征沿着某一维度进行展平。

作者将激光雷达(LiDAR)的Z轴数据形成激光雷达的鸟瞰图(BEV)特征,定义为

F_{B}^{L}\in\mathbb{R}^{B_{S}\times\hat{C_{L}}\times H_{B}\times W_{B}}

。最初,作者将

F_{B}^{L}

F_{B}^{C}

进行拼接,以获得一个融合的BEV特征,表示为

F_{B}^{MM}\in\mathbb{R}^{B\times(\hat{C_{C}}+\hat{C_{L}})\times H_{B}\times W_{B}}

。随后,

F_{B}^{MM}

经过卷积操作,产生一个新的融合特征,表示为

\hat{F_{B}}\in\mathbb{R}^{B_{S}\times\hat{C_{L}}\times H_{B}\times W_{B}}

。值得注意的是,在训练过程中,

\hat{F_{B}}

将被用作监督信号。

如图4所示,作者在

F_{B}^{MM}

的相机维度上引入随机偏移噪声,以获得新的带噪声特征

F_{N}^{MM}\in\mathbb{R}^{B_{S}\times(\hat{C_{C}}+\hat{C_{L}})\times H_{B}\times W _{B}}

,模拟源自相机BEV特征的全球错位问题。值得注意的是,激光雷达BEV特征是直接展平的,因此更准确。然后,

F_{N}^{MM}

被输入到MM-Align模块中进行全局偏移学习。

F_{N}^{MM}

通过CBR模块进行处理,该模块使用基本卷积操作来学习偏移量,定义为

F^{O}\in\mathbb{R}^{B_{S}\times 2\times H_{B}\times W_{B}}

,其中2指的是偏移坐标

(u,v)

。随后,激光雷达BEV特征

F_{B}^{L}

F^{O}

进行网格采样以生成新的变形权重,定义为

F_{W}^{D}\in\mathbb{R}^{B_{S}\times\hat{C_{L}}\times H_{B}\times W_{B}}

。网格采样的目的是利用偏移量对激光雷达BEV特征

F_{B}^{L}

进行空间转换,其可学习的偏移动态调整以比标准卷积操作更灵活地捕捉空间依赖性。之后,

F_{W}^{D}

与激光雷达BEV特征

F_{B}^{L}

相乘以动态调整特征,接着通过CBR模块进行标准卷积操作,最终产生定义为

F_{B}^{D}\in\mathbb{R}^{B_{S}\times\hat{C_{L}}\times H_{B}\times W_{B}}

的输出变形BEV。最后,在训练期间,作者使用之前提到的

\hat{F_{B}}

F_{B}^{D}

进行监督,并以下列方式使用

L_{\text{Align}}

进行监督:

L_{\text{Align}}=\frac{1}{N_{B}}\sum_{i=1}^{N_{B}}(\hat{F_{B}}_{i}-F_{B\;i}^{ D})^{2} \tag{2}

其中,

N_{B}=B_{S}\times H_{B}\times W_{B}

表示元素的总数,而

\hat{F_{B}}_{i}

F_{B\;i}^{D}

分别表示

\hat{F_{B}}

F_{B}^{D}

中第

i

个元素的值。该公式计算了两个特征图相应位置上平方差的平均值,作为损失函数。

4 Experiments

在本节中,作者介绍了GraphBEV的实验设置,并在nuScenes [4] 数据集上评估了3D目标检测的性能。此外,作者还采用了文献[12]提供的解决方案来模拟特征错位情景。

Experimental Setup

4.1.1 Dataset and Metric.

作者评估了GraphBEV在具有挑战性的大规模nuScenes数据集[4]上的表现,该数据集是通过一个32线激光雷达和六个摄像头收集的。该数据集通常被划分为700/150/150个场景用于训练/验证/测试。

六个图像涵盖了360度周围环境,并且该数据集提供了校准矩阵,这些矩阵能够实现从3D点向2D像素的精确投影。作者采用所有类别上的mAP和NDS作为主要评估指标,遵循[1, 29, 34]的做法。需要注意的是,NDS指标是mAP和其他细分指标(例如,平移、缩放、方向、速度和属性错误)的加权平均值。

为了进行消融研究,作者在训练数据子集上训练模型,包括

\frac{1}{10}

\frac{1}{4}

以及完整的数据集,并在整个验证集上进行评估,该验证集由75、175和700个场景用于训练以及150个场景用于验证。

此外,为了验证特征对齐的鲁棒性,作者遵循参考文献[12]的方法来模拟激光雷达和相机投影的度量误差所造成的错位。值得注意的是,参考文献[12]仅在验证数据集上添加了噪声,而没有在训练和测试数据集上添加。

4.1.2 Implementations.

作者在PyTorch [39]中实现了GraphBEV,构建在开源的BEVFusion [34]和OpenPCDet [53]之上。对于激光雷达分支,使用SECOND [61]进行特征编码以获得激光雷达的BEV特征, Voxel 尺寸设置为[0.075m, 0.075m, 0.2m],点云范围在X、Y、Z轴上分别指定为[-54m, -54m, -5m, 54m, 3m]。相机分支采用Swin Transformer [32]作为相机的主干网络,整合了编号为3、6、12、24的 Head ,并使用FPN [16]来融合多尺度特征图。输入图像的分辨率被调整并裁剪为256

\times

704。在LSS [40]配置中,视锥范围设置为X坐标[-54m, 54m, 0.3m],Y坐标[-54m, 54m, 0.3m],Z坐标[-10m, 10m, 20m],以及深度范围[1m, 60m, 0.5m]。

在训练过程中,作者对数据进行10个周期的增强,包括随机翻转、旋转(在范围

[-\frac{\pi}{4},\frac{\pi}{4}]

内)、平移(标准差=0.5)以及缩放在[0.9, 1.1]范围内的激光雷达数据增强。作者使用CBGS [74]重新采样训练数据。此外,作者还采用在[

-5.4^{\circ}

,

5.4^{\circ}

]范围内的随机旋转和在[0.38, 0.55]范围内的随机调整图像大小进行增强。采用Adam优化器[20],并应用单周期学习率策略,将最大学习率设置为0.001,权重衰减设置为0.01。批量大小为24,训练在8个NVIDIA GeForce RTX 3090 24G GPU上进行。在推理阶段,作者移除了测试时数据增强(TTA),并在A100 GPU上将批量大小设置为1。所有的延迟测量都在同一台配备A100 GPU的工作站上进行。

Comparisons with State-of-the-Art Methods

4.2.1 3D Object Detection.

作者首先在表1中比较了作者的GraphBEV和其他最新方法在nuScenes验证集和测试集上针对3D目标检测任务的表现。作者的GraphBEV在验证集上取得了最佳性能(mAP为70.1%,NDS为72.9%),一致性地超越了所有单模态和多模态融合方法。在多模态方法中,PointPainting [55],PointAugmenting [56]和MVP [68]作为点 Level 方法,无法避免特征错位问题。另一方面,GraphAlign [50],AutoAlignV2 [9],TransFusion [1]和DeepInteraction [66]作为特征 Level 方法,解决了激光雷达和相机特征之间的错位问题。然而,这些方法并未包含从相机到鸟瞰(BEV)的转换过程,因此它们无法解决由深度估计引起的BEVFusion [29, 34]的特征错位问题。

如表1所示,作者的GraphBEV在mAP上比 Baseline BEVFusion [34]提高了1.6%,在NDS上提高了1.5%。总的来说,开源的nuScenes数据集特征对齐问题最少,但如图1(a)所示,并不能完全避免。具体来说,作者的GraphBEV利用KD-Tree算法搜索由LiDAR到相机提供的投影深度周围的邻近深度。与BEVFusion [34]相比,作者的GraphBEV在小型目标上显示出显著的改进,例如Barrier提高了4.0%,Bike提高了2.2%,Pedestrian提高了2.7%。这主要是由于小型目标对特征错位更敏感,即使是LiDAR和相机之间的微小错位也可能导致小型目标更大的错位。此外,作者的GraphBEV和ObjectFusion解决了基于BEV的多模态方法[29, 34]中的特征错位问题。虽然ObjectFusion [5]引入了利用RoI Pooling融合的后融合范式,但作者的GraphBEV没有改变BEVFusion [29, 34]的范式,在mAP上稍微超过了ObjectFusion 0.7%,在NDS上超过了0.3%。此外,当作者把nuScenes测试集的检测结果提交到官方评估服务器时,作者的GraphBEV达到了SOTA性能,它在mAP上超过了 Baseline BEVFusion [34] 1.5%,在NDS上超过了0.7%。总的来说,作者能够在不改变BEVFusion [29, 34]优秀范式的情况下解决特征错位问题。

4.2.2 BEV map segmentation.

为了评估3D目标检测,作者还对nuScenes [4] 验证集上的鸟瞰图(BEV)地图分割(语义分割)任务中的泛化能力进行了评估,结果如表2所示。遵循与基准BEVFusion [34]相同的训练策略,作者针对每帧在 ego 车周围[-50m, 50m]

\times

[-50m, 50m]的区域内进行了评估。作者报告了可行驶区域、人行横道、步行道、停车线和停车位、分隔线的交并比(IoU)得分。可行驶区域、人行横道、步行道、停车线和停车位都有显著提升,仅分隔线有轻微下降。总的来说,作者的GraphBEV不仅在3D目标检测中表现出显著的性能,而且在BEV地图分割中也展现了强大的泛化能力。

Ablation Study

4.3.1 Roles of Different Modules in GraphBEV for Feature Alignment.

为了分析错位的影响,作者进行了GraphBEV与BEVFusion [34]之间的对比实验。值得注意的是,在表3中,作者在nuScenes验证集引入了错位,而不是在训练和测试集,这是参考[12]中的做法。作者在干净的nuScenes [4] 训练数据集上进行了训练,并在干净和有噪声的错位设置下评估了性能。在干净设置下,GraphBEV显著优于BEVFusion [34];而在有噪声的设置下,性能提升是显著的。此外,很明显,BEVFusion [34]在从干净环境到有噪声环境的转变中,mAP和NDS等指标显著下降,而GraphBEV在性能指标上的下降幅度较小。

值得注意的是,将LocalAlign或GlobalAlign模块添加到BEVFusion [34]中,与BEVFusion [34]相比,对延迟的影响最小,且延迟低于TransFusion [1]。当仅将LocalAlign模块添加到BEVFusion [34]中,使用KD-Tree算法建立邻近关系,并将投影深度与邻居深度融合以防止特征错位时,在干净和噪声错位设置中都观察到了显著的增强。仅将GlobalAlign模块添加到BEVFusion [34]也带来了明显的改进。特别是,同时添加LocalAlign和GlobalAlign模块在干净和噪声环境中均显示出强大的性能。

对天气条件、自我距离和物体大小的鲁棒性。 如表4所示,作者针对不同的天气条件,展示了GraphBEV的鲁棒性分析。各种天气条件会影响3D目标检测任务。遵循BEVFusion [34]和ObjectFusion [5]的方法,作者将验证集的场景划分为晴朗、雨天、白天和夜晚条件。在不同天气条件下,作者的表现优于BEVFusion [34],特别是在夜间场景中。总体而言,作者的GraphBEV通过精确的特征对齐,在晴朗天气下提高了性能,并在恶劣天气条件下增强了性能。

此外,作者分析了不同的自车距离和物体大小对GraphBEV性能的影响。作者将标注和预测的自车距离分为三组:近(0-20米),中(20-30米),远(>30米),并为每个类别汇总了大小分布,定义了三个等比例的大小 Level :小,中等,大。很明显,GraphBEV在远距离和小物体上显著提高了性能。与BEVFusion [34]相比,作者的GraphBEV在所有自车距离和物体大小上都能一致提高性能,进一步缩小了性能差距。总的来说,作者的GraphBEV在自车距离和物体大小的变化上展现出更强的鲁棒性。

4.2.2 Effect of the Hyperparameters
K_{\text{graph}}

for Feature Misalignment.

如表5所示,为了分析超参数

K_{\text{graph}}

在LocalAlign模块中对特征错位的影晌,作者在nuScenes验证集上的噪声错位设置下研究了其效果。

K_{\text{graph}}

作为LocalAlign模块中LiDAR到相机投影深度的最近深度的数量,影响了邻近深度特征的表达能力。观察到当

K_{\text{graph}}

为8时,作者的GraphBEV达到最优的整体性能。因此,选择一个合适的

K_{\text{graph}}

是至关重要的,这可能在其他数据集上会有所不同。此外,尽管由于

K_{\text{graph}}

的变化导致mAP显著波动,但整体性能仍超过了BEVFusion。

5 Conclusion

在这项工作中,作者提出了一个健壮的融合框架,名为GraphBEV,以解决基于BEV方法的特征错位问题[29, 34]。为了缓解由LiDAR提供的不准确投影深度引起的特征错位,作者提出了LocalAlign模块,该模块通过图匹配利用邻域感知的深度特征。此外,为了防止在融合LiDAR和相机BEV特征时的全局错位,作者设计了GlobalAlign模块来模拟偏移噪声,然后通过可学习的偏移对齐全局多模态特征。作者的GraphBEV在nuScenes验证集上显著优于BEVFusion,尤其是在噪声错位设置中。这表明作者的GraphBEV在真实世界场景中显著推进了BEVFusion的应用,特别是在噪声错位情况下。

参考

[1].GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
    • LiDAR-based 3D Object Detection
      • camera-based 3D Object Detection
        • Multi-modal 3D Object Detection
        • 3 Method
          • LocalAlign
            • GlobalAlign
            • 4 Experiments
              • Experimental Setup
                • 4.1.1 Dataset and Metric.
                • 4.1.2 Implementations.
              • Comparisons with State-of-the-Art Methods
                • 4.2.1 3D Object Detection.
                • 4.2.2 BEV map segmentation.
              • Ablation Study
                • 4.3.1 Roles of Different Modules in GraphBEV for Feature Alignment.
                • 4.2.2 Effect of the Hyperparameters
            • 5 Conclusion
            • 参考
            相关产品与服务
            腾讯云服务器利旧
            云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档