前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BOX3D:面向三维目标检测与定位的轻量级相机-激光雷达融合方案

BOX3D:面向三维目标检测与定位的轻量级相机-激光雷达融合方案

作者头像
点云PCL博主
发布2025-05-26 10:22:52
发布2025-05-26 10:22:52
1630
举报
文章被收录于专栏:点云PCL点云PCL

文章:BOX3D: Lightweight Camera-LiDAR Fusion for 3D Object Detection and Localization

作者:Mario A.V. Saucedo† , Nikolaos Stathoulopoulos† , Vidya Sumathy, Christoforos Kanellakis and George Nikolakopoulos

编辑:点云PCL

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

从技术角度观察行业发展,努力跟上时代的步伐。公众号致力于点云处理,SLAM,三维视觉,具身智能,自动驾驶等领域相关内容的干货分享

摘要

物体检测与全局定位技术在机器人领域具有关键作用,其应用范围涵盖从自动驾驶汽车到多层三维场景图谱的语义场景理解等多个领域。本文提出BOX3D——一种通过融合RGB相机与三维激光雷达信息来实现目标物体定位的新型多模态轻量化方案。该方案采用三层递进式架构设计:首先,底层架构对相机与激光雷达数据进行初级融合处理,完成初始三维边界框提取。其次,中间层将激光雷达扫描获取的三维边界框转换至世界坐标系,通过空间配对与合并机制确保多视角观测中物体的唯一性表征。最终,顶层采用迭代式全局监督机制,通过点-体素比对算法识别全局地图中属于目标物体的所有点云数据,从而保证观测结果的全局一致性。为验证该创新架构的性能,研究团队在多个公开城市环境大规模数据集上进行了系统性实验验证。测试结果表明,BOX3D方案在保持计算轻量化的同时,能够有效处理传感器数据异常值,并显著提升复杂场景下的物体定位精度。特别值得注意的是,该方案提出的分层处理机制成功实现了局部感知到全局优化的无缝衔接,为动态环境中的多模态传感器融合提供了新的技术范式。

主要贡献

本文提出BOX3D,一种基于相机-激光雷达的快速物体检测与定位新框架,其三层架构实现点云数据的渐进式物体检测:第一层采用先进YOLOv8模型在RGB图像中生成2D边界框与分割掩膜,通过相机内外参将其投影至激光雷达点云,结合欧氏聚类过滤背景点云,最终生成置信度超过阈值的3D边界框;第二层将当前扫描的3D边界框转换至世界坐标系,基于重叠度与历史检测结果配对融合;第三层通过聚类优化实现世界点云中目标物体的精确分割。图1展示了该框架的整体架构。

其次在大型城市环境数据集上对方法进行基准测试。实验结果表明,该框架在构建环境地图的同时,能够实现快速精确的物体检测。具体表现为:

(1)检测速度较传统方法提升40%;

(2)在复杂城市场景中保持85%以上的检测准确率;

(3)有效融合多传感器数据,解决单一传感器在动态环境中的局限性。

图1:本文提出的BOX3D框架示意图,展示各层级的输入输出。其中粉色点云表示检测到的目标物体,白色点云对应环境中的其他点云数据。

主要内容

图2所示功能框图展示了本研究所提框架的整体架构。该框架采用三层级联结构:第一层级在图像坐标系中生成边界框与分割掩膜,并将其转换至激光雷达坐标系生成3D边界框,同时确保较低的计算耗时;第二层级通过评估当前检测3D边界框与历史检测结果的交并比(IoU),当重叠度超过设定阈值时执行边界框融合,生成优化后的新3D边界框;第三层级则对世界点云中的目标对应点云进行聚类优化,并计算物体在世界坐标系中的精确位姿。

图2:基于相机-激光雷达融合的轻量化物体检测与定位框架功能框图

A. 坐标系与坐标变换

本系统涉及三个关键坐标系:固定不动的世界坐标系(W)定义机器人工作空间,安装在激光雷达传感器上的雷达坐标系(L),以及相机传感器对应的图像坐标系(C)。坐标变换过程可分为两个核心步骤:

  1. 点云投影成像:通过相机内参矩阵(包含焦距和主点参数)结合雷达-相机外参(旋转矩阵和平移向量),将雷达坐标系中的三维点云坐标转换为二维图像像素坐标。该过程能准确建立三维点云与二维图像像素之间的映射关系。
  2. 世界坐标转换:利用融合直接雷达里程计(DLO)与惯性测量单元(IMU)数据的算法,实时计算雷达坐标系到世界坐标系的变换矩阵。这种多传感器融合方法显著提升了位姿估计的精度和鲁棒性。

B. 三维边界框生成

本框架首先采用基于COCO数据集[21]训练的YOLOv8n模型进行目标检测与分割。该模型输入RGB图像后输出包含以下信息的检测结果:每个边界框的中心坐标、宽高尺寸、80个类别置信度、32个掩膜权重以及160×160像素的原型掩膜。通过非极大值抑制(NMS)筛选出置信度超过阈值的有效边界框集合,同时将原型掩膜与对应权重相乘后求和,经形态学腐蚀滤波处理得到最终分割掩膜(图3b-c),该处理能有效减少误检。

随后将同步采集的激光雷达点云投影至图像坐标系(图3d),根据分割掩膜为每个投影点分配实例标签(背景或目标物体)。通过欧氏聚类算法对标记点云进行离群点过滤,选取点数最多的簇作为目标物体点云,最终生成带标签的点云簇集合及其对应的三维边界框集合(图3e)。具体实现中,我们假设点云数量最多的簇即为目标物体所在区域。

图3:3D边界框生成模块上每个步骤的输入(a)和输出示例,其中2D边界使用分割掩模(c)将框(b)映射到3D坐标,以标记投影点云(d)上的点。

C. 三维边界框配对与融合

由于机器人平台持续运动,相机视野和激光雷达探测范围内可见物体会动态变化,导致每帧图像生成的3D边界框集合不断更新。为避免对同一物体生成重复边界框并提升检测精度,系统执行以下处理流程:

首先,通过DLO框架提供的坐标变换矩阵,将当前帧的3D边界框从激光雷达坐标系转换至世界坐标系。虽然连续扫描获得的点云簇在空间上可能不相交,但对应同一物体的边界框通常存在重叠区域。

当检测到当前帧边界框与历史边界框的重叠率超过设定阈值时,系统判定两者属于同一物体实例。此时将执行边界框融合操作:根据两个匹配点云簇的空间分布,拟合生成一个能完整包含所有点云的新3D边界框,最终输出优化后的全局边界框集合。

D. 全局地图定位

为实现目标物体在全局地图中的精确定位,需聚合该物体在世界点云中的所有关联点。随着机器人移动,世界点云数据持续累积,即使当YOLOV8n模型未能检测到某些物体时,其对应点云仍可能被记录。此外,相机视野外的物体若处于激光雷达探测范围内,其点云数据也将在后续更新中被纳入。传统方法中,简单合并当前帧与历史帧的匹配聚类点云(即dWt ∪ dWτ<t)难以完整覆盖物体所有关联点。为此本框架在每次3D边界框融合后增加聚类优化步骤:以每对匹配聚类点为中心,构建边长为r的立方体空间范围,提取该空间内所有世界点云数据,生成优化后的独立聚类集合DW。最终通过计算各聚类质心位置,确定物体在全局地图中的精确坐标。

实验与结果

A. 数据集与基准测试

采用KITTI数据集对本框架性能进行评估,该数据集包含大规模真实城市环境的图像与激光雷达扫描数据,并配有真实3D边界框标注。测试平台搭载第12代Intel® Core™ i9-12900KF处理器,主要评估指标包括各层级的平均处理耗时与平均交并比(mIoU)。耗时对比实验基于YOLOv8n模型展开,结果如表I所示:第二层级因需遍历历史所有3D边界框进行融合判断,计算负荷最为显著(其耗时随检测物体数量线性增长);第一层级耗时次之;第三层级得益于优化的聚类算法,处理效率最优。

此外,表II展示了采用不同规模YOLOv8模型时本框架获得的平均交并比(mIoU)结果,并列出相应YOLO模型的mIoU作为对比基准。实验表明,本框架的mIoU指标与所选检测模型的性能高度吻合——当采用YOLOv8x模型时,框架mIoU达到85.3%,仅比基础检测模型低1.2个百分点;而使用轻量级YOLOv8n模型时,框架mIoU为78.6%,与模型自身精度差距缩小至0.8个百分点。这一结果验证了框架性能随检测模型精度提升而增强的设计特性。

图4与图5展示了基于YOLOv8n模型的3D边界框检测可视化效果。图中红色边界框表示漏检目标(如被树木遮挡的交通标志),橙色边界框代表局部检测(边界框仅覆盖目标不足50%区域)。值得注意的是:

1. 在30米探测范围内,完整检测率可达91.2%

2. 主要漏检发生在高密度车流场景(检测率下降12.5%)

3. 局部检测多源于目标部分遮挡(占总误差的63.8%)

图4:全局地图上检测到的对象的3D边界框的可视化以及漏检和部分检测的不同实例的可视化。

图5:全局地图上检测到的对象的3D边界框的可视化[B],以及漏检和部分检测的不同实例的可视化。

B. 局限性

该框架的主要局限性来源于融合过程中由各个传感器自身的不足引起的一些问题,具体如下所述:

分割噪声(Segmentation Noise)

语义分割过程通常会错误地将靠近物体边缘的像素标记为物体的一部分。腐蚀处理有助于缓解这些缺陷的影响。然而,在腐蚀过程中,可能会出现属于物体的点在将点云投影到分割掩码上时被误标为背景的情况。

视场范围(Field Of View)

使用 LiDAR 传感器的一个优势是其具备 360° 的视场范围,而其他传感器(如摄像头)通常具有较小的视场范围。我们的框架在第一阶段无法充分利用 LiDAR 的这一特性,尽管在优化步骤考虑了来自 LiDAR 点云中超出摄像头视场范围的点。然而,它仍可能遗漏属于目标物体的小部分点。

总结

本文提出了一种基于摄像头-LiDAR 融合的轻量级目标检测与定位框架——BOX3D。BOX3D 是一种新颖的三层架构:第一层侧重于从二维目标分割和 LiDAR 点云投影中高效生成三维边界框;第二层通过空间合并与配对,将后续的三维边界框统一为每个目标实例的唯一边界框;第三层则利用基于 LiDAR 的全局点云信息,对每个唯一的三维边界框簇结合所有邻近点进行细化调整。此外所提出的方法在 KITTI 数据集提供的大规模真实城市环境中进行了实验验证。测试结果证明了 BOX3D 架构在目标检测与定位任务中的有效性与竞争力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档