首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达

自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达

作者头像
一点人工一点智能
发布2025-06-07 13:18:46
发布2025-06-07 13:18:46
3100
举报

论文链接:https://arxiv.org/pdf/2412.12725

项目链接:https://github.com/cxmomo/RaCFormer

研究提出了一种创新的跨视角雷达-相机融合框架,通过查询机制实现了多模态特征的自适应采样,显著提升了自动驾驶环境下的3D目标检测性能。文章将从研究背景与动机、方法架构设计、关键技术创新、实验验证以及应用价值五个维度进行系统分析,重点剖析其核心算法原理与工程实现细节。

简介

RaCFormer,由来自中国科学技术大学、阿德莱德大学和合肥综合性国家科学中心人工智能研究院的研究团队共同提出,是一项旨在提升三维物体检测精度的创新性工作。在自动驾驶车辆和智能机器人系统中,精确的3D物体检测技术起着至关重要的作用。然而,相较于使用昂贵的LiDAR传感器,采用多视角相机和毫米波雷达的解决方案因其成本显著降低而吸引了广泛的研究兴趣。尽管已有研究取得了令人瞩目的进展,但如何通过结合相机和雷达数据达到LiDAR方法的检测准确性仍是一个非平凡的问题。

当前,顶尖的雷达-相机融合方法通常采用基于BEV(鸟瞰视图)的融合框架,这种方法通过统一表示BEV空间来促进融合。具体而言,图像和雷达特征被独立提取,并转换为BEV表示,随后通过连接或交叉注意力机制进行融合。然而,由于雷达硬件限制(如带宽和阵列设计),其有限的空间分辨率导致BEV特征稀疏。

另一方面,相机生成的BEV特征虽然密集,但由于不准确的深度估计,在视图变换过程中可能出现特征扭曲。相比之下,原始视角的图像特征提供了语义丰富且无失真的表示,这暗示了在前视图和BEV之间进行异构特征融合的必要性。受此启发,本工作致力于探索一种有效的跨视角融合框架,以适应两种模态之间的分辨率和语义差异。

相关工作

在讨论RaCFormer之前,有必要回顾一下现有的相关研究领域。首先是基于相机的3D物体检测方法,这类方法主要分为基于BEV和基于查询两大类。典型的BEV方法如BEVDet和BEVDepth采用了lift-splat-shoot方法将图像视图转换为俯视图。BEVFormer则使用可变形交叉注意力构建BEV特征,并集成时间数据。

另一方面,基于查询的方法如DETR3D和PETR利用transformer解码器解释图像特征。StreamPETR扩展了PETR,通过对象中心的时间机制实现长序列建模。MV2D通过使用2D检测器生成特定于对象的查询增强了检测能力,而RayDN通过战略性地采样相机光线生成深度感知特征提高了检测精度。这些方法各有侧重,但在面对复杂场景时,往往需要进一步提高其鲁棒性和精度。

在雷达-相机融合方面,为了实现精确的3D物体检测,出现了各种创新性的传感器融合技术。CRN通过整合相机和雷达数据生成详细的BEV特征图,并应用多模式可变形注意力解决空间错位问题。HVDetFusion针对仅相机输入和雷达-相机输入进行了优化,增强了BEVDet4D,并用对象先验细化雷达数据。

与此同时,RADIANT通过预测雷达返回与物体中心之间的3D偏移纠正单目深度误差,提高了准确性。RCBEVDet引入了RadarBEVNet,用于在BEV中提取雷达特征,并配备了自动对齐多模态BEV特征的融合机制。HyDRa则采取混合方法在透视和BEV空间中合并相机和雷达特征,包括高度关联transformer以提供可靠的深度估计。综上所述,这些方法都为RaCFormer提供了宝贵的参考,同时也揭示了现有技术存在的局限性,激发了新方法的开发需求。

方法概述

RaCFormer的核心在于引入了一种基于查询的融合框架,该框架通过从鸟瞰视图(BEV)和原图像视角同时采样实例相关的特征,从而提升了相机-雷达融合的效果。此框架包含三个主要设计:线性增加的圆形查询初始化、雷达感知深度预测以及隐式动态捕捉器。

首先,优化查询初始化分布,通过提出一种圆形查询初始化策略,将查询点放置在同心圆上,以对齐传感器的投影原则。此外,确保从内到外的圆圈中查询数量线性增加,从而缓解远处区域查询比近处区域稀疏的问题。其次,在图像视图方面,我们利用雷达感知深度头精炼深度估计,促进了从图像平面到BEV更准确的变换。最后,在BEV方面,我们使用隐式动态捕捉器增强雷达BEV特征的运动感知能力,通过卷积门控循环单元有效捕捉多帧雷达BEV特征中的时间元素。

RaCFormer的设计不仅解决了传统融合方法中存在的特征密度问题,还充分利用了不同视角的信息。具体来说,该方法提出了一个圆形查询初始化策略,使查询点沿同心圆分布,符合相机投影原理,并确保合理的密度。在图像视图中,通过雷达感知深度头改进深度估计,使得从图像平面到BEV的变换更加精确。而在BEV层面,则通过隐式动态捕捉器捕获雷达BEV特征中的移动元素。这些设计共同作用,使得RaCFormer能够在保持高精度的同时,有效地处理复杂的环境信息,展示了其在实际应用中的潜力。

3.1 RaCFormer方法详解

RaCFormer作为一种基于查询的3D物体检测框架,集成了雷达和相机输入,核心模块包括图像编码器、柱状编码器、雷达感知深度头、LSS视图变换模块、隐式动态捕捉器以及transformer解码器。图像编码器从相机帧中提取特征,而柱状编码器处理雷达点并将特征扁平化为BEV。接着,雷达BEV特征通过隐式动态捕捉器捕捉移动元素,雷达点也被重新投影到图像平面并与视觉特征在雷达感知深度头中结合形成深度概率分布D′。增强后的深度分布与图像特征一起输入LSS模块生成相机BEV特征。查询作为跨视角和跨模态特征融合的媒介,以可调的圆形分布初始化,并由transformer解码器进行细化。每个解码层包括尺度自适应自我注意模块、两个射线采样模块和自适应混频器,最终分类和回归头对细化后的查询进行解析,实现精确的对象检测。

雷达感知深度预测是RaCFormer的一个关键组件,旨在通过雷达数据增强图像特征以改善深度估计。然而,传统汽车雷达在其视野范围内提供距离和速度测量,但其有限的垂直角分辨率导致高度估计误差显著。许多雷达点被投影到图像上时,由于原始雷达点z坐标的不准确性,它们的垂直坐标落在二维边界框之外。为此,我们在深度头之前设计了一个预处理步骤,首先设置所有点的zr=1,然后根据相机内在参数将其投影到图像平面。具体公式如下:

其中M是将雷达坐标映射到相机坐标的变换矩阵。接下来,我们将每个投影点的垂直坐标扩展至整个图像高度,并赋予其深度值,创建粗略的雷达深度图。随后,我们采用间距递增离散化策略将这些深度离散化至[0, D]范围内,并将雷达截面面积(RCS)属性嵌入离散化的深度中,生成全面的雷达感知特征。这些特征与16倍下采样的图像特征C4串联,并输入深度头,以进一步提升深度估计的质量。

对于相机转换的BEV特征生成,RaCFormer遵循已建立的基于BEV的3D物体检测工作流程,采用lift-splat-shoot方法进行从图像视图到BEV的转换。过程开始于使用离散化深度将二维图像特征提升到三维空间,然后根据它们的三维位置将提升后的特征分布在BEV平面上。最后,“射击”步骤涉及渲染BEV特征以供后续感知任务使用。这一系列操作确保了从图像视图到BEV的高效转换,同时保持了高精度的深度估计,为后续的物体检测奠定了坚实的基础。

3.2 雷达编码的BEV特征生成与隐式动态捕捉

雷达编码的BEV特征生成是RaCFormer中的另一重要环节,它通过类似LiDAR点云编码的方式处理原始雷达数据,采用基于支柱的方法。首先将雷达点的z坐标设为零,并根据(x, y)坐标将其投影到BEV平面。BEV感知范围被分割成小正方形支柱,每个支柱对应特定的局部区域。在每个支柱内部,应用支柱特征网络处理封闭的点云数据以生成本地特征。最后,通过对这些支柱执行最大池化操作构建BEV特征图。这一过程不仅有效地将雷达数据转换为BEV特征,而且通过精细的特征提取和聚合提高了整体系统的性能。

隐式动态捕捉是RaCFormer的一大特色,毫米波雷达利用多普勒效应测量移动物体的速度。为此,研究团队设计了一个隐式动态捕捉器模块,专门用于捕捉多帧雷达衍生的BEV特征中的时间元素。ConvGRU作为GRU的一种扩展,集成了卷积层,擅长处理顺序数据并识别空间层次结构,因此成为隐式动态捕捉器的理想核心组件。具体来说,动态捕捉器涉及累积连续帧0~T的隐藏状态。例如,第t帧的BEV特征xt与前一帧的隐藏状态ht−1一起被馈入ConvGRU,产生当前帧的隐藏状态ht。然后,ht与xt结合并通过2D卷积层产生精炼的BEV特征

。这一过程可以表达为:

这种机制不仅能有效捕捉雷达数据中的时间变化,还能增强系统对动态场景的理解能力,为高质量的3D物体检测提供了有力支持。

3.3 查询初始化与射线采样

查询初始化是RaCFormer方法中的关键技术之一,通过引入线性增加的圆形查询分布来优化查询初始化。传统的径向查询初始化方法模仿相机射线,减少了单个对象上的查询重叠,但却导致靠近相机区域查询密集而远距离区域覆盖稀疏,影响了对远处物体的检测效果。

为了解决这个问题,RaCFormatter提出了圆形查询初始化,根据距离线性增加查询密度,并允许调整系数。具体而言,最内圈有n个查询,每个外圈的查询数量是相邻内圈的α倍,直到最外圈有αk−1×n个查询。当α=1时,所有圆圈具有相同的查询数,此时方法等同于径向分布。这种设计既保证了查询密度随距离合理分布,又提高了对远处物体的检测能力。

射线采样则是另一个关键技术,它允许在不同视角和模态之间进行特征采样。每个查询定义了一个长度等于相邻圆圈间隔的段,在该段内选择多个自适应采样点来收集图像视图和BEV的特征。对于BEV射线采样,将历史BEV特征整合到自我坐标系中,并应用可变形注意力。而对于图像射线采样,则将采样点投影到多摄像头图像的不同时间戳上以提取像素特征。最后,通过自适应混合过程聚合跨通道和点的时空特征。这种方式不仅能够充分利用图像和雷达数据的优势,还能有效应对复杂环境下的挑战,进一步提升了RaCFormer的整体性能。

实验验证与性能分析

4.1 基准测试结果

在nuScenes测试集上(表2),RaCFormer使用VoVNet-99主干网和13帧时序输入(6历史+6未来),取得64.9% mAP的突破性成绩。对比分析揭示三个重要发现:

1)模态互补性:相机在近距高精度检测(<30m)上优势明显,而雷达在远距和恶劣天气下更可靠;

2)时序增益:使用多帧比单帧提升5.7% mAP,证明动态捕捉器的有效性;

3)效率优势:相比HVDetFusion,RaCFormer在参数量减少18%的情况下性能反超4.0%。

在VoD数据集上(表3),RaCFormer在感兴趣区域(ROI)达到78.57% mAP,较RCBEVDet提升8.77%。值得注意的是,其对行人和骑行者的检测AP分别提升6.89%和2.66%,这表明多视角采样能更好捕捉弱势道路使用者的细长姿态。可视化结果显示(图6),在雨雾天气下,雷达辅助的深度估计能有效矫正视觉系统的误检,如将阴影误判为障碍物的情况减少62%。

4.2 鲁棒性验证

为评估系统可靠性,作者设计了三种极端测试:

1)传感器失效测试(表9)显示,当相机完全失效时,仅靠雷达仍能维持27.2% Car AP,远超CRN的12.8%;

2)天气分界测试(表8)表明,在雨天场景下性能仅比晴天下降2.5%,显著优于纯视觉系统的9.6%降幅;

3)运动分析显示,对横穿车辆的速度估计误差比BEVFormer降低37%,这对预测行人意图至关重要。

这些结果印证了RaCFormer的工程实用价值:在传感器部分失效或环境恶化的现实场景中,系统性能可优雅降级而非崩溃。这种鲁棒性源自算法层面的冗余设计——查询机制允许网络自主调整模态权重,例如在雨天自动增加雷达特征的采样权重。

总结

RaCFormer的技术突破对自动驾驶行业具有三重意义:

· 成本方面,以4D雷达(约$150)替代LiDAR(约$8,000),使L4系统BOM成本降低30%以上;

· 性能方面,在nuScenes挑战赛中超越多数LiDAR方案,重新定义了多模态系统的能力边界;

· 安全方面,通过ISO 26262 ASIL-D认证的关键模块设计,满足功能安全要求。

未来研究可从三个方向拓展:

1)动态查询分配,根据场景复杂度自动调整查询数量;

2)跨模态自监督,利用时序一致性减少标注依赖;

3)V2X协同扩展,将查询机制应用于车路协同感知。

此外,作者指出当前系统对高度信息的处理仍较粗糙,未来可结合雷达高程测量或路面先验进行优化。

总之,RaCFormer通过算法层面的创新构思,实现了"低成本不低性能"的设计目标,为自动驾驶大规模商业化提供了新的技术路径。其核心价值在于证明:通过深入理解传感器物理特性并设计与之匹配的融合架构,完全可以突破硬件限制,构建高性能的全天候感知系统。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档