前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!

BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!

作者头像
AIGC 先锋科技
发布2024-07-08 13:03:20
1400
发布2024-07-08 13:03:20
举报
文章被收录于专栏:AIGC 先锋科技

从鸟瞰图(BEV)角度进行语义场景分割在移动机器人规划和决策中起着关键作用。 尽管最近的仅基于视觉的方法在性能上取得了显著的进步,但它们在恶劣光照条件下,如雨天或夜间,往往表现不佳。 虽然主动传感器为这一挑战提供了解决方案,但激光雷达的高昂成本仍然是一个限制因素。将相机数据与汽车雷达融合是一种更为经济的替代方案,但在之前的研究中关注较少。 在这项工作中,作者通过引入BEVCar,一种用于联合BEV目标和地图分割的新方法,旨在推动这一有前景的研究方向。作者方法的核心创新之处首先在于学习原始雷达数据的基于点的编码,然后利用它有效地初始化图像特征提升到BEV空间。 作者在nuScenes数据集上进行了大量实验,并证明了BEVCar优于当前的最先进技术。 此外,作者还展示了融合雷达信息显著提高了在具有挑战性的环境条件下的鲁棒性,并改善了远处目标的分割性能。 为了促进未来的研究,作者在上提供了作者实验中使用过的nuScenes数据集的天气划分,以及作者的代码和训练模型。 关注公众号,私信 『 代码 』获取。

I Introduction

移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。

虽然激光雷达和雷达数据可以直接转换成鸟瞰图(BEV)空间,基于摄像头的信息需要从图像平面转换成俯视图。因此,已经提出了各种提升策略[4、10、11],这些策略极大地提高了仅基于视觉方法的性能,其中一些策略已扩展到融合激光雷达数据[5、7]。尽管激光雷达能够生成高度精确的3D点云,但由于其成本相较于汽车雷达要高得多,其适用于大规模部署的适用性仍然存在争议。然而,摄像头-雷达融合在研究社区中受到的关注相对较少,通常仅在添加了激光雷达输入的情况下进行研究[12、8]。相比之下,雷达被批评太稀疏,无法在独立使用中有效利用[12]。

在这项工作中,作者强调了雷达在提高机器人感知鲁棒性中的关键作用。具体来说,作者关注于鸟瞰图(BEV)中的目标和地图分割,突出了雷达在视觉受损环境条件下的独特优势。虽然先前的研究已经探索了用于BEV分割的相机-雷达融合,但有些方法在训练过程中需要额外的激光雷达监督[9],或者依赖于特定雷达元数据[8, 6],而这些可能无法跨不同制造商的模型获取。为了解决这些限制,作者提出了一种新颖的方法,该方法独立于这些约束运作。作者提出的BEVCar架构包括两个特定传感器的编码器以及两个基于注意力的模块,分别用于图像提升和BEV相机-雷达融合。随后,作者将融合后的特征输入到多任务头中,以生成地图和目标分割图。作者在nuScenes[1]数据集上广泛评估了作者的方法,并证明了它在具有挑战性的光照条件下,在相机-雷达融合方面达到了最先进的表现。

主要贡献如下:

作者引入了全新的BEVCar,用于从摄像头和雷达数据中进行BEV地图和目标分割。

  1. 作者提出了一种新的基于注意力的图像提升方案,该方案利用稀疏雷达点进行 Query 初始化。
  2. 作者展示了基于学习的雷达编码优于使用原始元数据。
  3. 作者在具有挑战性的环境条件下广泛地将BEVCar与之前的 Baseline 进行了比较,并展示了利用雷达测量的优势。

作者将nuScenes [1] 上使用的日/夜/雨天数据分割公开,并发布了代码和训练模型。

II Related Work

在本节中,作者概述了仅基于视觉的鸟瞰图(BEV)方法,并回顾了基于雷达的感知的先前方法。

基于相机的BEV感知: 当前在基于相机的BEV感知领域的研究旨在处理图像空间与BEV空间之间的视图差异。现有方法通常采用编码器-解码器架构,并融入一个独特的视图转换模块来处理图像与BEV平面之间的空间变化。早期工作利用变分自编码器将特征直接解码为2D俯视图笛卡尔坐标系[13]。相比之下,VPN[14]使用多层感知机(MLP)来建模图像和BEV特征图之间空间位置的依赖关系,确保在视图转换中的全局覆盖。Roddick等人[15]通过引入更明确的几何建模改进了这些工作。特别是,他们提出了一种金字塔占用网络,并配备了一个每级密集变换模块来学习图像视图中的列与BEV图中的射线之间的映射。PoBEV[16]通过分别用不同的变换模块处理平坦和垂直特征,从而扩展了这一概念,并进一步提高了性能。

近期的方法可以分为提升(lifting)基于机制和注意力基于机制。提升方法采用要么是隐式的深度分布模块[10]将特征投影到潜在空间,要么是显式的深度估计模块生成中间3D输出,例如用于目标检测[17]或场景补全[18]任务。注意力基于方法将视图变换公式化为从图像空间到鸟瞰图(BEV)的序列到序列的翻译。TIIM[19]在BEV空间中的极坐标光线与图像中的垂直列之间应用平面间注意力,并结合在每个相应极坐标光线上的自注意力,与基于深度的方法如LSS[10]相比,性能有显著提升。

近期的发展包括全环绕视角的BEV感知方法,例如CVT [20],它使用带有学习位置嵌入的跨视角 Transformer 来避免显式几何建模。相比之下,BEVFormer [4] 和 BEVSegFormer [21] 明确使用相机校准参数建模几何,并提出了基于可变形注意力[22]的空间跨注意力模块进行视角逆投影。BEVFormer [4] 还采用时间注意力模块,通过车辆自身运动在时间上聚合BEV地图,这代表了3D目标检测的最新技术。时间聚合也在BEVerse [11]中得到应用,它通过增加运动预测 Head 扩展了现有方法,并展示了所提出的多任务网络优于单任务网络,表明任务之间存在正向迁移。

上述方法通常与新颖的数据增强技术[23]结合使用,这些技术通过在各个中间嵌入之间保持空间一致性来解决图像与BEV之间的视角差异。最后,SkyEye [24]提出了一种限制较少的方法,通过在时间上重建语义图像,从标记的正面视角图像学习语义BEV地图。作者的工作利用了单目BEV感知方面的最新进展,并利用雷达模态进行更几何可行的视角投影。这是通过使用雷达 Query 的基于注意力的新颖图像提升方案实现的。此外,作者还 Proposal 利用已通过对比学习进行预训练的现有图像骨架来进一步规范化模态特定分支。

雷达感知基础: 雷达通过发射无线电波和接收其反射之间的时间差来测量到目标的距离。公开发布的用于机器人应用的雷达数据集包括不同类型的雷达,如旋转雷达[2],汽车雷达[1],或4D成像雷达[3]。在这项工作中,作者专注于汽车雷达。由于雷达是一种相对低成本的直接测量距离的技术,因此它已被用于提高基于视觉的3D目标检测。尽管ClusterFusion [27]仅在图像空间融合雷达和相机数据,但SparseFusion3D [28]在图像空间和鸟瞰图(BEV)空间都进行了传感器融合。

在分割领域,最初的工作研究了雷达点云的语义分割[29],并未涉及额外的视觉输入。近期,多模态鸟瞰图(BEV)和目标分割的研究受到了越来越多的关注。《FISHING Net》[12]这篇开创性工作的作者们提出了基于MLP的提升策略用于相机特征。为了将这些特征与由类似UNet的网络编码的雷达数据相结合,FISHING Net采用了基于类别的优先级池化。相比之下,Simple-BEV[6]以栅格化的BEV格式处理原始雷达数据,并将其与通过双线性采样提升的图像特征进行拼接。尽管Simple-BEV的目标是对车辆进行与目标无关的分割,但其训练依赖于额外的实例信息。

由于纯粹基于拼接的融合可能会受到空间对齐不良的影响,CRN[9]采用了可变形注意力[22]来聚合图像和雷达特征。然而,该方法使用LSS[10]来提升图像特征,并且在训练过程中需要激光雷达(LiDAR)来监督深度分布网络。最后,BEVGuide[8]在部署期间除了利用现有的知识外,没有进一步利用其他知识。通过基于单应性投影的方法,将来自EfficientNet[30]图像 Backbone 网络的特征转换成了一种比例不明确的自上而下表示。雷达数据被转换到BEV空间,然后由两个卷积层进行编码。与之前的工作不同,BEVGuide提出了一种自下而上的提升方法,通过从统一的BEV空间 Query 传感器特征来获取传感器特定的嵌入,然后将它们进行拼接。在这项工作中,作者进一步发展了这些想法,并使用了一种受到激光雷达处理[26]启发的更为精细的雷达编码器。此外,作者还提出了一种新的提升方案,该方案明确利用雷达点作为强有力的先验知识。

III Technical Approach

在这一部分,作者提出了BEVCar方法,用于从环视摄像头和汽车雷达进行鸟瞰视角(BEV)的目标和地图分割。如图2所示,BEVCar包括两个特定于传感器的编码器,分别用于图像和雷达数据。作者通过可变形注意力将图像特征提升到BEV空间,在此过程中利用雷达数据来初始化 Query 。采用中间融合策略后,作者接着使用交叉注意力模块将提升的图像表征与学习的雷达特征相结合。最后,作者在瓶颈操作中降低空间分辨率,并使用单一多类 Head 同时对车辆和地图进行BEV分割。在接下来的小节中,作者将提供每个步骤的进一步细节。

Sensor Data Encoding

如图2所示,作者在两个独立的编码器中处理两种模态的原始数据。

相机: 为了编码相机数据,作者采用了一个冻结的DINov2 ViT-B/14 [25],其图像表示捕获的语义信息比基于ResNet的骨架网络[31]更多。遵循常见的方法[32, 33],作者使用了一个具有可学习权重的ViT Adapter [34]。为了覆盖环视视觉,作者在每个时间戳将来自

N

个相机的图像进行 ConCat ,形成一个维度为

N\times H\times W

的输入,其中

H

W

分别表示图像的高度和宽度。对于下游处理,ViT Adapter 输出具有

F

个通道的多尺度特征图,这些特征图对应

雷达:雷达数据由一个点云表示,每个点都具有多种特征。与先前的作品[6, 8]不同,作者强调依赖于特定雷达模型的内置后处理会降低方法的通用性。因此,类似于SparseFusion3D[28],作者只利用雷达点的

D

个基本特征:3D位置

(x,y,z)

,未补偿的速度

(v_{x},v_{y})

,以及雷达散射截面_RCS_,它捕捉了表面的可检测性。与利用原始数据[6]不同,作者提出学习一个由编码LiDAR点云[26]启发的雷达表示。首先,作者根据雷达点在尺寸为

X\times Y\times Z

的 Voxel 网格中的空间位置将它们分组,该 Voxel 网格对应于BEV空间的分辨率和高度的离散化。为了限制内存需求和减轻对高密度 Voxel 的偏见,作者在包含超过

P

个雷达点的 Voxel 中进行随机采样。每个点及其元数据随后通过图3所示的点特征编码输入,其中FCN指的是全连接层。请注意,点特征编码不积累来自多个 Voxel 的信息。随后,作者对每个 Voxel 应用最大池化以获得大小为

F

的单个特征向量。最后,作者将 Voxel 特征通过基于CNN的 Voxel 空间编码器,沿着高度维度压缩特征,得到整体的雷达BEV编码

f_{rad}

Image Feature Lifting

作者采用基于学习的方法,将编码的视觉特征从2D图像平面提升到BEV空间。受到BEVFormer [4]的启发,作者使用了可变形注意力[22],但提出了一种新颖的 Query 初始化方案,该方案利用了稀疏的雷达点。

Query 初始化:作者提出的 Query 初始化方案的核心动机是利用雷达测量中的3D信息,将2D图像特征初步提升到BEV空间。如图4所示,作者首先创建一个大小为

X\times Y\times Z

的 Voxel 空间,该空间由BEV分辨率

X\times Y

、附加的高度离散化

Z

以及朝向前方的摄像机中心确定。其次,作者根据摄像机的视场将每个 Voxel 分配给一个或两个摄像机。第三,作者通过射线投影将视觉特征从2D图像平面推送到3D Voxel 空间,即沿着射线锥体内的每个 Voxel 包含相同的图像特征。特别是,作者使用了尺度为

的图像特征。如果两个摄像机的视场重叠,作者将在受影响的 Voxel 内平均特征。随后,作者使用

1\times 1

卷积层去除高度分量,得到具有

F

个特征通道的

X\times Y

Voxel 网格。请注意,在这个阶段,图像特征仍然是均匀分布的,没有深度的概念。因此,作者使用由稀疏雷达点云引导的可变形注意力[22]来过滤特征图,从而得到初始化 Query

Q^{L}_{img}

,其大小为

F\times X\times Y

提升:在下一步中,作者将数据驱动的初始 Query

Q^{L}_{img}

与可学习位置嵌入

Q^{L}_{pos}

结合起来,以实现排列不变性,并学习可学习的鸟瞰图(BEV) Query

Q^{L}_{bev}

[4, 6]:

Q^{L}=Q^{L}_{img}+Q^{L}_{pos}+Q^{L}_{bev} \tag{1}

采用可变形注意力机制[22],作者构建了一个尺寸为

X\times Y\times Z

的3D Voxel 空间,以从图像中提取视觉编码。与 Query 初始化相比,作者现在在图像平面上而不是BEV空间上采样偏移量。经过六个级联的 Transformer 模块后,作者得到了最终的特征图

f_{img,bev}

,其维度与编码后的雷达数据相同,即

F\times X\times Y

Sensor Fusion

为了将提升的图像特征与编码的雷达数据融合,作者遵循一种与提升步骤相似的计划。受到TransFusion [7]的启发,该论文融合了摄像头和激光雷达进行3D目标检测,作者 Query 雷达点周围的图像特征,并通过可变形注意力[22]提取数值。类似于方程(1),作者通过将编码的雷达数据

f_{rad}

、可学习的位置编码

Q^{F}_{pos}

和可学习的鸟瞰图(BEV) Query

Q^{F}_{bev}

相加来形成初始 Query :

Q^{F}=f_{rad}+Q^{F}_{pos}+Q^{F}_{bev} \tag{2}

重要的是,在跨注意力步骤中,提升的图像特征仅作为键和值。总的来说,作者使用六个 Transformer 块的级联。最后,作者将最后一个块的输出通过一个ResNet-18 [31] 瓶颈结构进行处理,以共同编码两种模态的特征。

BEV Segmentation Head

作者采用单个 Head 进行多类鸟瞰图(BEV)分割。具体来说,作者使用两个带有ReLU激活函数的卷积层,然后是一个最终的

1\times 1

卷积层来输出一个目标类别和

M

个地图类别。考虑到BEV空间的分辨率,分割 Head 产生的输出大小为

M+1\times X\times Y

。因此,一个像素不仅可以同时捕捉到车辆和地图类别预测,还可以被分配到多个地图类别中。

目标分割:在分割目标时,作者考虑所有类似车辆的实体,例如乘用车和卡车。与先前的作品[6]不同,作者强调在训练过程中,目标无关的分割不应依赖于实例感知信息,因为这将使得方法的应用灵活性降低。因此,作者仅通过二进制交叉熵损失来监督分割头中的目标通道:

\mathcal{L}_{BGE}=\frac{-1}{N}\sum_{i=1}^{N}\log(p_{i,t})\,, \tag{3}

在公式中,

p_{i,t}

是针对每个像素

i\in[1,N]

定义为:

p_{i,t}=\begin{cases}p_{i}&\text{if }y_{i}=1\\ 1-p_{i}&\text{otherwise.}\end{cases} \tag{4}

二进制真值标签

y_{i}\in\{0,1\}

指定了像素

i

是否属于车辆类别。对于

y_{i}=1

的相应预测概率用

p_{i}

表示。

_地图分割:_尽管大多数先前的方法[4, 8, 9]仅预测道路,有时也包括车道分隔线,但作者进一步包含了如人行横道和人行道等地图类别。详尽的列表请参见第IV-A节。为了在训练过程中监督分割 Head 的地图通道,作者采用了

\alpha

-平衡焦损失的多类别变体[35]:

\mathcal{L}_{FOC}=\sum_{c=1}^{C}\frac{-1}{N}\sum_{i=1}^{N}\alpha_{i,t}\left(1 -p_{i,t}\right)^{\gamma}\log(p_{i,t})\,, \tag{5}

在这段文本中,

c\in[1,C]

指的是语义类别,而

\gamma

是一个聚焦参数,用于区分简单/困难样本。另外,

\alpha_{i,t}

是按照方程式(4)类似定义的:

\alpha_{i,t}=\begin{cases}\alpha&\text{if }y_{i}=1\\ 1-\alpha&\text{otherwise,}\end{cases} \tag{6}

具有可调参数

\alpha

以解决前景与背景的不平衡问题。

IV Experimental Evaluation

在本节中,作者概述了实验设置,并将作者的BEVCar方法与各种 Baseline 进行了比较。作者进一步分析了作者方法的各个组成部分的影响,并展示了在不利条件下雷达测量相较于仅依赖视觉方法的优势。

Experimental Settings

作者介绍了所使用的数据集和评估指标,并提供了进一步的实现细节。

数据集和评价指标:作者在新加坡和马萨诸塞州波士顿的自动城市驾驶nuScenes数据集[1]上评估作者的BEVCar方法,这是唯一公开提供所需传感器数据和 GT 地图标注的数据集。nuScenes数据集包括来自六个RGB摄像头和五个汽车雷达的环视视觉,并提供BEV地图信息。在训练和评估中,作者使用官方的训练/验证分割,分别包含28,130和6,019个样本。作者将验证场景进一步划分为白天(4,449个样本)、雨天(968个样本)和夜晚(602个样本)场景,并在作者的代码发布中包含这个分割。对于目标分割,作者将“车辆”类别的所有子类合并。对于地图分割,作者考虑所有可用的类别,即“可行驶区域”、“停车场区域”、“人行横道”、“人行道”、“停止线”、“道路分隔线”和“车道分隔线”。作者报告了之前工作中涉及到的那些类别的个别交并比(IoU)指标[36],并将所有地图类别的平均IoU称为“map”。为了将BEVCar与预测类别较少的先前 Baseline 进行比较,作者报告了“车辆”和“可行驶区域”的平均值作为“mIoU”。

实现细节: 与相关研究[6, 8, 9]类似,作者的鸟瞰图(BEV)网格覆盖了以自车为中心的

100\,\mathrm{m}\times 100\,\mathrm{m}

区域,并以

200\times 200

个单元格进行离散化。作者进一步构建了一个从地面到

10\,\mathrm{m}

高度的上下范围,并将其离散化为八个等级。由此产生的三维张量是相对于作为参考坐标系统的前向摄像头进行定向的。对于训练和推理,作者将六个摄像头的图像调整至

448\times 896

像素,以适应所采用的ViT Adapter 的要求,这一调整基于Harley et al.[6]的分析结果。按照同一研究发布的代码,作者将五个雷达扫描作为输入进行聚合。在训练过程中,作者将Focal Loss函数(见公式(5))的参数设置为

\alpha=0.25

\gamma=3

Quantitative Results

作者在表1中比较了BEVCar与各种基准方法。特别是,作者报告了采用摄像头-雷达融合方法的性能,包括Simple-BEV [6],BEVGuide [8],和CRN [9],这些方法在训练时利用了来自激光雷达的深度信息。在提交时,只有Simple-BEV的作者发布了他们的代码。作者利用此代码进行了扩展版本Simple-BEV++的开发,通过增加BEV地图分割任务,移除额外的雷达元数据(见第三节-A),并忽略了实例感知损失(见第三节-D)。为了展示雷达测量的优势,作者进一步将BEVCar与仅视觉的基准方法CVT [20],BEVFormer [4],以及Simple-BEV [6]和作者提出的BEVCar变体进行了比较。

关于后者,作者仅使用相机的BEVCar版本在“车辆”类别上比Simple-BEV(C) Baseline 性能略有提升(

+1.4

IoU),在“可行驶区域”类别上比BEVFormer的静态版本也有所提升(

+0.4

IoU)。作者主要将这种仅在视觉范围内的改进归因于DINOv2 [25] 主干的语义丰富的图像表征。

通过作者提出的方法整合雷达数据,使得车辆预测结果得到实质性增强(IoU提升了+9.6),并在地图分割上实现了值得注意的改进(mIoU提升了+3.8)。因此,作者推理在机器人感知中利用雷达将显著提高性能,并在第IV-C节中从各个方面进一步分析这一论断。

对于车辆分割任务,BEVCar的性能优于Simple-BEV(高出2.7个IoU),与BEVGuide(低0.8个IoU)和CRN(低0.4个IoU)相当。关于CRN,需要考虑的一个重要因素是,这种方法在训练阶段依赖于激光雷达(LiDAR)来学习度量深度。对于地图分割,BEVCar在提供更多语义类别信息的同时,改进了所有 Baseline 方法。对于两项任务的组合评估,BEVCar在整体性能上取得了最高分,与BEVGuide相比高出2.9个mIoU,与CRN相比高出0.4个mIoU。作者进一步将BEVCar与上述Simple-BEV++进行了比较。为了消除不同 Backbone 网络的影响,作者在两种方法中都集成了ResNet-101 [13] 和DINov2 ViT-B/14 [25]。需要注意的是,Simple-BEV++的多任务训练导致在车辆分割任务上的性能低于Simple-BEV Baseline 。尽管作者观察到DINov2 Backbone 网络也提高了Simple-BEV++的结果,但作者的BEVCar方法仍然使用两种图像 Backbone 网络ResNet-101(高出4.4个mIoU)和ViT-B/14(高出3.0个mIoU)优于Simple-BEV++,证明了作者方法的创新性。

在图5中,作者通过比较BEVCar与Simple-BEV++的改进和错误,强调了这一观察结果。作者进一步展示了 GT BEV目标和地图分割,并提供了仅基于相机的 Baseline Simple-BEV++以及作者BEVCar方法的视觉预测。关于不同天气和光照条件的详细分析,请参见下一节。

Ablations and Analysis

为了进一步分析作者提出的BEVCar方法,作者对其组成部分进行了消融研究,并评估了在具有挑战性的条件下相较于 Baseline 方法的性能提升。

组件分析: 作者评估了BEVCar的两个关键组件的影响,即所提出的雷达点编码和新的雷达驱动的图像特征提升,并在表2中报告了相对于受Simple-BEV [6]启发的 Baseline 的改进。首先,与不采用基于学习的编码的直接利用原始雷达数据相比,作者的方法在车辆和地图分割任务上分别实现了0.6的IoU增长和0.9的mIoU增长。其次,尽管 Baseline 使用了一种无需参数的将图像特征提升到BEV空间的方案,但作者的基于注意力的方案在提升阶段就已经利用了雷达信息。与之相比,这在车辆分割上的IoU提高了1.8,在地图分割上的mIoU提高了4.2。

基于距离的目标分割: 在表3中,作者分析了BEVCar、仅摄像头的变体、Simple-BEV [6]以及Simple-BEV++在三个不同距离区间内的车辆分割质量,包括

0

-

20\,\mathrm{m}

20

-

35\,\mathrm{m}

35

-

50\,\mathrm{m}

。需要注意的是,由于重新运行作者的代码以启用基于范围的评估,Simple-BEV的整体性能略低于表1中报告的性能。与上一个实验类似,作者观察到仅摄像头的 Baseline 在不同评估标准下的结果差异显著。虽然在

0

-

20\,\mathrm{m}

范围内的IoU与Simple-BEV相当,但在

35

-

50\,\mathrm{m}

范围内,它的性能仅达到最初的一半。尽管所有摄像头-雷达方法的一般趋势相似,但BEVCar的效果最不严重。总之,作者的实验证明了利用雷达测量在较大距离下也保持目标分割性能的优势。

鲁棒性对天气和光照的适应性:除了提供互补信息,即密集的RGB数据与稀疏的距离和速度测量之外,摄像头和雷达之间的一个核心区别在于各自传感器所利用的能量来源。虽然像摄像头这样的被动传感器依赖于外部能源,如太阳,但像雷达这样的主动传感器则自行提供能量。因此,被动传感器在具有挑战性的光照条件下会受到影响,例如在雨天或夜间。因此,作者强调,特别是在这些情况下评估汽车感知系统是至关重要的,以全面了解其性能。

在表4和图5中,作者将之前报告的BEVCar的指标以及与研究中感知范围相同的 Baseline 分为_白天_、_雨天_和_夜间_。作者观察到,仅使用摄像头的 Baseline 在夜间时车辆分割的IoU(交并比)遭遇了重大退化。相比之下,所有摄像头-雷达方法都能保持其性能,而BEVCar实现了最高性能。另一方面,地图分割的mIoU(平均交并比)在雨天下降,并且在夜间甚至进一步降低,这适用于所有调查的方法。结果表明,雷达对于目标检测最有益,对于BEV映射则不太重要,这在意料之中,因为从2D图像空间到BEV空间的平面地图类别的映射学习,深度信息不如具有定义的高度、宽度和深度参数的物体映射重要。

V Conclusion

在这项工作中,作者引入了BEVCar,以解决面向鸟瞰图(BEV)的地图和目标分割的摄像头-雷达融合问题。BEVCar包括一种新的基于学习的雷达点编码,并在将视觉特征从图像平面提升到BEV空间的提升步骤中早期利用雷达信息。作者证明了在联合考虑地图和目标分割时,BEVCar优于先前的摄像头-雷达方法。作者在具有挑战性的天气和照明条件下广泛评估了性能,并分析了各种感知范围的鲁棒性。作者的结果清楚地展示了在环视视觉基础上利用汽车雷达的好处。为了促进这一方向上的进一步研究,作者在代码的公开版本中包含了作者对nuScenes [1] 验证数据集的白天/雨天/夜晚划分。将来,作者将研究在部分或完全传感器故障情况下的鲁棒性问题,例如,通过在训练过程中利用跨模态蒸馏。

参考

[1].BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
  • III Technical Approach
    • Sensor Data Encoding
      • Image Feature Lifting
        • Sensor Fusion
          • BEV Segmentation Head
          • IV Experimental Evaluation
            • Experimental Settings
              • Quantitative Results
                • Ablations and Analysis
                • V Conclusion
                • 参考
                相关产品与服务
                VPN 连接
                VPN 连接(VPN Connections)是一种基于网络隧道技术,实现本地数据中心与腾讯云上资源连通的传输服务,它能帮您在 Internet 上快速构建一条安全、可靠的加密通道。VPN 连接具有配置简单,云端配置实时生效、可靠性高等特点,其网关可用性达到 99.95%,保证稳定、持续的业务连接,帮您轻松实现异地容灾、混合云部署等复杂业务场景。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档