前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DSP-SLAM:具有深度形状先验的面向对象SLAM

DSP-SLAM:具有深度形状先验的面向对象SLAM

作者头像
点云PCL博主
发布2021-12-22 09:04:11
1.5K0
发布2021-12-22 09:04:11
举报
文章被收录于专栏:点云PCL点云PCL

文章:DSP-SLAM: Object Oriented SLAM with Deep Shape Priors

作者:Jingwen Wang Martin Runz Lourdes Agapito

编译:点云PCL

代码:https://github.com/JingwenWang95/DSP-SLAM

摘要

本文提出了DSP-SLAM,这是一个面向对象的SLAM系统,它为前景对象构建了一个丰富而精确的稠密3D模型的联合地图,并用稀疏的地标点来表示背景环境。DSP-SLAM将基于特征的SLAM系统重建的三维点云作为输入,并使其具备通过稠密重建检测对象来增强其稀疏地图的能力。通过语义实例分割检测目标,并通过一种新的二阶优化算法,以特定类别的深度形状嵌入作为先验估计目标的形状和姿态。我们的对象感知捆集调整构建姿势图,以联合优化相机姿势、对象位置和特征点。DSP-SLAM可以在3种不同的输入模式下以每秒10帧的速度工作:单目、立双目或双目+激光雷达。

DSP-SLAM构建了丰富的对象感知地图,提供了检测到的对象的完整详细形状,同时粗略地将背景表示为稀疏特征点,此图为在KITTI 00上重建的稀疏地图和相机轨迹

视频演示了DSP-SLAM在Friburg和Redwood OS数据集的单目RGB序列和KITTI里程计数据集的stereo+LiDAR序列上以几乎帧速率运行,表明它实现了高质量的全对象重建,即使是部分观测,同时保持了一致的全局地图。我们的评估显示,与最近基于深度先验的重建方法相比,物体姿态和形状重建有了改进,并减少了KITTI数据集上的相机跟踪漂移。

主要贡献

虽然DSP-SLAM不是第一个利用形状先验从图像序列进行3D重建的方法,但它在许多方面都有所创新。

首先,与之前方法的不同点是我们的地图不仅表示对象,还将背景重建为稀疏特征点,在联合因子图中对其进行优化,将基于特征的方法和对象感知SLAM(高级语义地图)的最佳特性结合起来。

其次,尽管Node-SLAM也在实时SLAM系统中纳入了形状先验知识,但它使用稠密的深度图像进行形状优化,而DSP-SLAM可以仅使用RGB单目图像流进行计算,并且每个对象只需要50个3D点即可获得准确的形状估计。最后,尽管FroDO和DSP-SLAM都可以在单目RGB设置下运行,但FroDO是一种缓慢的批量方法,需要提前获取所有帧并与它们的相机姿态关联,而DSP-SLAM是一种在线、连续的方法,可以每秒运行10帧。在物体形状和姿势估计方面,在定量和定性上改进了自动标记,这是一种最先进的基于先验知识的物体重建方法。在KITTI里程计数据集上的实验表明,通过双目+激光雷达输入,我们的联合捆集调整在轨迹估计方面比用作主干的仅具备功能的双目系统ORB-SLAM2有所改进。此外,DSP-SLAM提供了与最先进的双目、仅激光雷达和 dynamic SLAM系统相当的跟踪性能,同时提供了丰富的稠密对象重建。DSP-SLAM还通过Freiburg Cars和Redwood OS数据集上的单目输入实现了较好的定性重建结果。

系统概述:DSP-SLAM输入单目或双目的实时图像流,推断对象mask,并输出特征点和稠密对象的联合地图,稀疏SLAM主模块提供每帧相机姿势和3D点云,在每个关键帧处,使用三维曲面一致性和渲染深度损失的组合,为每个新检测到的对象实例估计形状。DSP-SLAM可在3种不同模式下运行:单目、双目和双目+激光雷达。

主要内容

DSP-SLAM是一种根据输入序列数据实现定位和建图的方法,可重建检测对象的完整详细形状,同时将背景粗略地表示为一组稀疏的特征点。每个对象都表示为一个紧凑且可优化的向量z。DSP-SLAM的概述如图2所示。DSP-SLAM几乎实时运行(每秒10帧),并可在不同模式下运行。

稀疏SLAM框架:ORB-SLAM2用作跟踪和建图主框架,这是一种基于特征的SLAM框架,可对单目或双目序列进行操作,当跟踪线程根据对应关系以帧速率估计相机姿态时,建图线程通过重建三维地标来构建稀疏地图。

检测:我们在每个关键帧执行对象检测,共同推断2D边界框和分割mask,此外,通过检测3D边界盒获得物体姿态估计的初始估计。

数据关联:新检测对象将与现有地图对象关联,或通过对象级数据关联实例化为新对象,每个检测到的对象实例I包括2D边界框、2D的Mask、稀疏3D点云的dpeth观测值以及对象初始位姿。

基于优先级的对象重建:DSP-SLAM采用一组稀疏的3D点观测数据,这些数据可以来自重建的SLAM点云或激光雷达输入(在立体+激光雷达模式下),并优化形状和对象位姿,以最大限度地减少表面一致性和深度渲染损失。地图中已存在的对象将仅通过位姿优化更新其6-dof位姿。

图4:形状重建

联合因子图优化:通过捆集调整优化点特征、对象和相机姿势的联合因子图,以保持一致的地图并合并回路闭合,新对象作为节点添加到联合因子图中,其相对位姿将估计为相机对象的优化边。

实验

我们使用KITTI3D数据集上的激光雷达作为输入,与最相关的自动标记方法相比,对我们创新的基于先验的对象重建优化进行定量评估,此外,评估了我们的DSP-SLAM系统在stereo+LiDAR和KITTI里程计基准数据集上的仅有双目输入上的相机的轨迹误差,并与最先进的方法进行了比较。我们还提供了Freiburg Cars和Redwood OS数据集上纯单目输入的全SLAM系统的定性结果。

在KITTI3D上对简单和中等样本的对象长方体预测质量与自动标记进行定量比较。自动标签的结果取自他们的论文。最佳结果以粗体数字显示。

形状重建和位姿估计与自动标记方法的定性比较。左:输入RGB图像。中间:带DSP-SLAM的结果 右:带自动标记的结果。

各种方法的相机跟踪精度比较结果

当每个对象使用不同数量的激光雷达点(N=250、50、10)时,对象重建结果。当点数从250减少到50时,没有明显的区别。当进一步降低到10时,重建质量开始下降。质量下降部位用红色圆圈标记。

Freiburg Cars数据集的定性结果

Redwood OS椅子数据集的定性结果

总结

本文提出了一种新的对象感知实时SLAM系统DSP-SLAM,该系统利用深度形状先验进行对象重建,生成背景稀疏点特征和检测对象稠密形状的联合地,我们在KITTI(双目和双目+激光雷达)等具有挑战性的真实世界数据集上,甚至在单目数据集上,都显示了几乎实时的性能,我们在相机轨迹估计和形状/位姿重建方面与其他方法进行了定量比较,结果显示其性能与最先进的方法相当或更高。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档