在结构化场景中基于单目的物体与平面SLAM方案

点云PCL博主

发布于 2020-11-11 11:15:44

8180

发布于 2020-11-11 11:15:44

文章被收录于专栏：点云PCL点云PCL

文章：Monocular Object and Plane SLAM in Structured Environments

作者：Shichao Yang, Sebastian Scherer

翻译：particle

本文仅做学术分享，如有侵权，请联系删除。

论文阅读模块将分享点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享，欢迎各位加入我，我们一起每天一篇文章阅读，开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。

●论文摘要

本文提出了一种基于高层次目标物体和平面关键特征的单目的SLAM算法。与基于特征点的SLAM相比，所构建的地图更密集、更具体、更有语义信息的地图。文章首先提出一个高层次的图形模型，在考虑遮挡和语义约束的情况下，从单个图像中联合推断三维物体和结构平面。在统一的SLAM框架下，利用摄像机姿态对获取的目标物体和平面进行进一步优化。与点特征相比，目标物体和平面可以提供更多的语义约束。在ICL-NUIM和TUM-Mono等不同的公共数据集和采集数据集上的实验表明，与最先进的SLAM算法相比，我们的算法可以提高摄像机定位精度，尤其是在没有环路闭合的情况下，该算法还能在许多结构化环境下稳健地生成稠密的地图。

使用单目相机重建关键点、物体（绿色框）、平面（红色矩形）的稠密SLAM贴图的示例结果。（顶部）ICL客厅数据集。（底部）收集的长廊数据集。

● 相关工作与介绍

在这项工作中，提出一个基于单目目标物体和平面的SLAM系统，没有先验的对象物体和房间形状模型。主要分为两个步骤。理解三维结构是第一步是，基于图像的几何特征和语义特征生成并优化结构平面和物体对象。第二步是多视图SLAM优化。在一个统一的捆集调整（BA）框架中，通过摄像机姿态和点特征进一步优化平面和物体。对象和平面提供了额外的语义和几何约束，以改进摄像机的姿态估计，优化并生成密集的三维地图。另一方面，精确的SLAM姿态估计提高了单图像的3D检测。综上所述，我们的贡献如下：

•一个高层次图形几何模型，具有高效的推理能力，可用于单图像三维结构理解。

•首个单目目标和平面SLAM，在SLAM方面均优于最先进的算法。

● 内容精华

单帧图像理解

将环境表示为一组长方体对象和结构化平面（如墙和地板）。目标是同时从二维图像推断出它们的三维位置。我们首先生成若干目标物体和假设平面，然后通过条件随机场（CRF）优化选择其中的最佳子集，如图所示

单图像三维物体和结构平面检测概述。首先生成许多高质量的对象和结构化平面，然后根据语义分割、交叉、遮挡等信息建立图形几何模型来选择最优子集。

为了表示平面，CNNs可以直接预测三维平面位置，但由于预测的布局可能与实际平面边界不完全匹配，可能会丢失一些细节。因此，测量不确定度大，不适合作为SLAM观测值。所以这里直接检测和选择更可靠和可重复性更好的地面与墙交界线段。

SLAM优化

利用单幅图像检测中选取的目标物和平面作为SLAM观测值，并通过多视点BA对摄像机姿态进行优化。并在SLAM过程中包含点特征，因为在环境中通常只有几个对象和平面，它们不能完全约束摄影机的姿势。

SLAM中的观测值。（a）相机平面观测。将检测到的地面边缘反投影到三维空间，与地标平面进行比较。（b）相机对象物体观测。将三维长方体地标投影到图像上，并与检测到的二维盒体进行比较。（c）物体与平面测量误差取决于被平面遮挡的物体体积。

● 实验

对于目标检测，使用了与Object SLAM【1】类似的算法。Yolo检测器用于二维目标检测。对于平面检测，我们首先使用【2】检测线段并将其合并到长边上。Segnet【3】用于二维语义分割。然后我们过滤掉长度小于50像素且距离墙-地分割边界50像素以上的线。在视频情况下，单幅图像的三维检测采用SLAM姿态估计。对于SLAM部分，系统是建立在基于特征点的ORB SLAM之上的，通过对象和平面进行扩展。

单图像原始物体和面检测和CRF优化。

（a）原始平面和预测的对象。（为了简洁起见，只绘制了一个长方体方案）

（b）原始方案的俯视图。红色矩形表示地面真实物体，蓝色表示估计值。检测的墙线是青色的。

（c） CRF选定检测到物体的俯视图。优化后的物体姿态更精确。平面和对象的相交和遮挡也会减少

（顶部）ICLNUIM办公室2和房间数据。（中）YUM-mono 36。（下）采集的长廊。红色矩形为平面边界，绿色长方体为对象。蓝色曲线是估计的摄像机轨迹。

●总结

在这项工作中，我们提出了第一个单目SLAM和稠密SLAM算法，根据实验结果表明，语义场景理解和传统的SLAM优化方法可以互相促进。对于单幅图像，我们提出了一种快速的三维物体和结构化平面的联合理解方法。通过二维目标检测和边缘检测生成长方体和平面方案。然后提出一种高效的稀疏高阶CRF推理来选择最优方案。在SLAM部分，针对平面和物体设计了几种新的测量函数。与点相比，物体和平面可以提供远距离的几何和语义约束，如交集和支撑关系，以提高姿态估计。为了提高鲁棒性，提出了严格的外点剔除、鲁棒数据关联和优化方法。我们评估了SLAM算法在各种公共室内数据集（包括房间和走廊）中的性能。与现有的方法相比，我们的方法可以在大多数环境下改进摄像机的姿态估计和稠密地图。未来，除了墙平面外，还需要考虑更多的通用平面，以生成更密集、更完整的地图。动态对象和对象表面映射也可以用来提高鲁棒性和地图质量。

参考文献

【1】Shichao Yang and Sebastian Scherer. CubeSLAM: Monocular 3D object SLAM. IEEE Transactions on Robotics, 2019

【2】Rafael Grompone von Gioi, Jeremie Jakubowicz, Jean-Michel Morel, and Gregory Randall. LSD: A fast line segment detector with a false detection control. IEEE Transactions on Pattern Analysis & Machine Intelligence, (4):722–732, 2008.

【3】Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-11-09，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法