RAL2021|基于快速直接的立体视觉SLAM

3D视觉工坊

发布于 2022-04-13 08:59:15

5640

发布于 2022-04-13 08:59:15

文章被收录于专栏：3D视觉从入门到精通

Fast Direct Stereo Visual SLAM

快速的直接法的立体视觉SLAM

Jiawei Mo1、Md Jahidul Islam2 和 Junaed Sattar3*

作者来自美国明尼苏达州明尼阿波利斯市明尼苏达双城大学明尼苏达机器人研究所 (MnRI) 计算机科学与工程系。电子邮件：{1moxxx066, 2islam034, 3junaed}@umn.edu

链接：https://arxiv.org/abs/2112.01890

期刊：RA-L2021

翻译：幸运的石头

摘要

我们提出了一种独立于特征检测和匹配的快速准确的立体视觉同步定位和建图（SLAM）的新方法。我们通过优化 3D 点的尺度以最小化立体配置的光度误差，将单目直接稀疏里程计 (DSO) 扩展到立体系统，与传统立体匹配相比，这产生了一种计算效率高且鲁棒的方法。我们进一步将其扩展到具有闭环的完整 SLAM 系统，以减少累积错误。在假设相机向前运动的情况下，我们使用从视觉里程计获得的 3D 点来模拟 LiDAR 扫描，并采用 LiDAR 描述符进行位置识别，以促进更有效地检测回环。之后，我们通过最小化可能的闭环的光度误差来估计相对位姿。可选地，通过使用迭代最近点 (ICP) 算法来实现对直接对齐的进一步改进。最后，我们优化了一个位姿图来提高全局的 SLAM 精度。通过避免在我们的 SLAM 系统中进行特征检测或匹配，我们确保了高计算效率和鲁棒性。与最先进的方法相比，对公共数据集的实验验证证明了它的有效性。

1 引言

在过去的几十年中，同步定位和建图 (SLAM) 一直是机器人和计算机视觉领域的一个活跃研究问题 [4, 29]。它通过使用机载传感器测量来估计机器人的瞬时位置，例如 LiDAR（光检测和测距）传感器、相机和惯性测量单元 (IMU)。SLAM 特别适用于 GPS 接收较弱的情况，例如室内、城市和水下环境。因此，它一直是 AR/VR [14]、自动驾驶 [3] 和不适用GPS的机器人应用 [32] 的重要组成部分。在现有系统中，视觉 SLAM [10] 具有重要意义，因为相机是低成本的无源传感器，因此与声纳或激光雷达等有源传感器相比消耗的能量更少。在户外操作的自主移动机器人极大地受益于相机在长期部署中的低功耗。

视觉 SLAM 系统可以分为基于特征的方法和直接方法。基于特征的方法 [18, 24] 在不同帧间检测和匹配特征，然后通过最小化重投影误差来估计相对相机运动；而直接方法 [6, 7] 通过直接最小化光度误差来估计相机运动，而无需特征对应。与基于特征的方法相比，直接方法表现出更高的准确性和鲁棒性，尤其是在纹理较差（纹理较少或重复纹理）的环境中 [9]。由于特征检测和匹配算法的计算成本很高，稀疏直接方法也有可能运行得更快（例如，SVO [9] ≥ 300 FPS）。另一方面，视觉 SLAM 系统也可以分为单目系统和多相机系统。单目系统 [6, 7, 18, 24] 无法估计多相机系统能够估计的环境度量尺度。多相机系统通常可以实现更高的精度和鲁棒性；其中，立体视觉系统 [8, 25, 31] 因其简单性和易被接受而特别受欢迎。

大多数现有的立体视觉系统使用标准的立体匹配算法[15]来解决尺度问题，这有两个主要缺点。首先，通过沿着各自的极线单独搜索来找到立体对应在计算上是昂贵的。其次，如果多个点看起来与查询点相似，则很难选择正确的一个；当纹理重复时会发生这种情况（例如，草、沙子）。我们在 [21] 中解决了这两个限制，其中单目系统中的 3D 点被投影到第二个相机中，并且通过最小化光度误差来解决尺度问题。我们证明了这种直接的尺度优化在计算上是有效的，并且对视觉场景中的重复纹理更健壮。

然而，即使使用公制尺度，随着相机的移动，全局相机位姿也不可避免地会偏离真实情况，因为它是通过逐步累积相机的相对运动来估计的。闭环带来了全局位姿约束来全局优化位姿以解决这个问题。传统的词袋 (BoW) 方法通过将当前视图的特征与历史匹配来检测回环。然而，BoW 方法不适用于直接 SLAM 系统，因为直接 SLAM 系统不提取特征描述符。或者，我们提出了一种用于城市驾驶场景的基于 LiDAR 描述符的位置识别方法 [22]。我们假设车辆正向前移动，这样我们就可以从立体直接 SLAM 系统中积累 3D 点来模仿 LiDAR 扫描，这些扫描由 LiDAR 描述符描述以进行位置识别。这有助于显着提高闭环检测的效率，并确保更高的准确性和鲁棒性。

在本文中，我们将尺度优化和基于 LiDAR 描述符的位置识别方法系统地结合到一个完全直接的立体 SLAM 系统中，称为 DSV-SLAM；我们在 https://github.com/IRVLab/direct_stereo_slam 发布了一个开源实现。我们进行了彻底的实验，以验证其最先进的准确性、卓越的计算效率以及在具有视觉挑战性的场景中的鲁棒性。DSV-SLAM 展示了无需特征检测或匹配的完整 SLAM 系统的可行性。在 DSV-SLAM 中，我们采用最先进的直接稀疏里程计 (DSO) [6] 来跟踪相机位姿并估计 3D 点。然后，我们使用尺度优化 [21] 将其扩展到有效且准确的立体视觉里程计 (VO)。随后，我们使用基于 LiDAR 描述符的位置识别方法 [22] 来有效地检测回环。可能的闭环的相对位姿通过直接对齐来估计，并且可选地通过迭代最近点（ICP）方法[1]进一步细化。最后，我们组合并优化了一个位姿图，以进一步提高全局的 SLAM 精度。图 1 显示了 DSV-SLAM 在 KITTI 数据集 [13] 的序列 00 上估计的轨迹和重建环境。

图 1：KITTI 序列 00 上提出的方法估计的轨迹和重建环境。

2 相关工作

在过去的二十年里，视觉 SLAM 一直是机器人和计算机视觉文献中一个活跃的研究问题。早期的方法依赖于各种基于滤波器的估计方法，例如 EKF-SLAM [28] 和 MSCKF [23]。从 PTAM [18] 开始，许多流行的方法将从结构到运动 [15] 中借鉴的技术（例如，光束调整）结合到基于优化的视觉 SLAM 系统中。基于优化的视觉 SLAM 系统可以分为基于特征的方法或直接方法，这取决于是否使用了特征匹配。

ORB-SLAM [5, 24, 25] 是最有影响力和最成熟的基于特征的方法之一。在其立体版本 [25] 中，3D 点从立体匹配中进行三角测量，然后跨帧进行跟踪。随后，通过最小化重投影误差，应用光束调整来联合优化局部滑动窗口内的点和相机位姿。在后端，BoW 用于闭环检测和相对姿态估计。随后，优化基本图以提高全局精度。还执行全局捆绑调整以进一步提高准确性。尽管提高了准确性，但它的计算成本很高。

DSO [6, 12, 31] 是当前最先进的直接视觉里程计。王等人[31] 将 DSO 扩展到使用立体匹配进行深度初始化的立体系统。为了将 BoW 纳入 DSO 系统以实现闭环，Gao 等人[12] 修改 DSO 的点选择策略以调整可跟踪特征并计算这些特征的描述符。然而，立体匹配和特征检测和描述在计算上是昂贵的，并且对纹理不良的环境缺乏鲁棒性。

如第二节所述。在图 1 中，我们提出了尺度优化 [21] 和基于 LiDAR 描述符的位置识别 [22] 作为立体匹配和 BoW 方法的替代方案。它们支持快速且完全直接的视觉 SLAM 系统，我们试图在本文中解决这个问题。

3 方法

图 2 说明了所提出系统的概要。有四个计算组件：单目VO、尺度优化模块、回环检测模块和回环校正模块。

符号我们使用来表示从坐标 a 到坐标 b 的变换（旋转和平移）。我们将立体相机对标记为 Cam0 和 Cam1。对于 k ∈{0, 1} 的 Camk，对应的图像是 Ik，相机投影表示为 Πk。一个 3D 点由表示，其中 p 和 dp 分别是像素坐标和（逆）深度，它们通过Π-1 0反投影到 3D 空间中

图 2：DSV-SLAM 概述：（1）从 Cam0 开始，Monocular VO 估计相机位姿并生成 3D 点；(2) 使用 3D 点，Scale Optimization 模块估计并保持 VO 的比例；(3) Loop Detection 模块根据来自 VO 的 3D 点检测回环；(4) 对于可能的回环，Loop Correction 模块估计回环的相对位姿并全局优化位姿

3.1 单目 VO

如前所述，我们选择了一种直接方法而不是基于特征的方法，因为它在纹理不良的环境中具有准确性、计算效率和鲁棒性。当前最先进的直接 VO 方法是 DSO [6]，它通过最小化定义在关键帧和点的滑动窗口 F 上的光度误差来工作，如

即对于关键帧 i ∈F 中的每个点 p ∈Pi，如果它被关键帧 j 观察到，则 Epj 表示相关的光度误差。Epj 在方程式中定义。图 2 本质上是关键帧 i 中的点 p 与其在关键帧 j 中的投影 p' 之间的像素强度差，如方程3式中所定义；仿射亮度项 (ai/j, bi/j)、曝光时间 ti/j、像素模式 Np、权重 wp 和 Huber 范数 ||·||γ 包括在光度鲁棒性中。详情请参阅[6]。值得一提的是，由于我们的模块化系统设计，这里可以使用任何单目 VO（最好是直接 VO）方法来代替 DSO

3.2 尺度优化

由于 DSO 是单目 VO，尺度是不可观测的并且随着时间的推移开始漂移。立体 VO 系统通过将相机之间的公制距离引入里程计系统来解决这个问题。如前所述，立体匹配是将单目 VO 扩展到立体 VO 的传统方法，但它的计算成本很高，并且不能很好地适应直接 VO。因此，我们在所提出的系统中采用尺度优化[21]来平衡鲁棒性和效率。尺度优化的主要思想是将Cam0上的单目VO点投影到Cam1上，并找到使光度误差最小的最佳尺度，定义为：

对于每个 3D 点，它在 Cam0 帧中通过当前尺度 s 重新缩放，然后通过立体校准已知的和投影到 Cam1。公式 4 中的光度误差 E 被定义为中的原始点 p 与其在中的投影 p' 之间的像素强度差。这种尺度优化的一个例子如图 3 所示。公式.4 是公式.2 的一个简化公式，具有两个条件上的简化。首先，没有仿射亮度参数或曝光时间。在[21]的实验中验证它是可行的，因为立体相机通常是硬件同步和触发的。其次，光度误差是使用单个像素而不是模式中的所有像素计算的（如公式 2 中所示），因为这些点在此处保持固定。因此，尺度 s 是唯一需要优化的自由参数。这些简化有助于高效的计算优化过程。

由于我们在系统启动时没有关于尺度的先验信息，因此我们使用从 0.1 到 50（根据经验选择）范围内的初始猜测值来运行尺度优化来初始化尺度。尺度优化后，通过重新缩放 Pose 和 3D 点来相应地调整 DSO。为了DSO的一致性，我们只重新缩放最近创建的关键帧的位姿并重置其评估点；由于 First Estimate Jacobians [16,19]，我们不会重新缩放其他关键帧，但它们的尺度将被启发式优化。因此，DSO 的度量尺度仅通过尺度优化来估计和维护。生成的立体 VO 计算效率高，并且完全直接，无需特征提取或匹配。

3.3 闭环检测

对于VO，相机位姿的漂移是不可避免的，因为它是通过累积相机运动来估计的。为了补偿这个误差，闭环为全局姿态优化带来了非局部姿态约束。BoW [11, 27] 是传统的闭环方法，但由于前面讨论的原因，它不太适合直接方法。

图 3：KITTI 数据集序列 06 上的尺度优化示例。上图为最优比例的投影，投影井与图像重叠；底部图像是比例不正确（0.1×最佳比例）的投影，绿色箭头表示正确投影的位置。

我们在 [22] 中提出了一种十分适合直接 SLAM 的替代方法。我们专注于位置识别的 3D 结构，而不是 2D 特征。我们在立体 VO 的 3D 点上调整 LiDAR 描述符来描述一个位置。然而，由于相机的视野狭窄，来自 VO 的 3D 点分布在视锥体中。视锥体的位姿随着相机的位姿变化而变化，这对于位置识别来说是我们所不希望的。我们对此的解决方案如图 2(3) 所示；假设相机运动主要是向前方向，我们建议从 VO 局部累积 3D 点以获得一组局部点，然后在当前 Pose 周围生成一组球面点以模仿 LiDAR 扫描。这是可行的，因为 VO 是局部准确的。为了提高效率，我们使用点过滤器来去除多余的点。过滤后的点构成最终的模拟 LiDAR 扫描（例如，图 5）。为了描述模拟的 LiDAR 扫描，我们更喜欢全局 LiDAR 描述符而不是局部描述符，主要有两个原因。首先，生成和匹配全局 LiDAR 描述符通常比局部更快。其次，模拟的 LiDAR 扫描不像真实的 LiDAR 扫描那样一致和密集，这对于局部 LiDAR 描述符来说并不理想。我们能够使用全局 LiDAR 描述符，因为由提议的立体 VO（具有尺度优化的 DSO）生成的 3D 点具有公制尺度。在 [22] 中，我们验证了 Scan Context [17] 对于城市地区记录的数据集是准确和有效的。因此，我们使用 Scan Context 作为我们的 LiDAR 描述符，并专注于城市驾驶场景。

图 4：在图 3 中位置附近的模拟 LiDAR 扫描上的 ring-key 和 Scan Context 描述符的简化图示。我们假设建筑物和树木的高度分别为 10 米和 3 米（仅用于此说明）。

Scan Context 的主要思想是使用城市区域（例如建筑物）的高度分布来描述 LiDAR 生成的点云。原始的 Scan Context 将点云与 IMU 测量的重力轴对齐。由于我们不希望将额外的传感器（即 IMU）带入我们的视觉 SLAM 系统，因此我们使用 PCA [30] 来对齐点云。对齐后，水平面（在我们的例子中最重要的 PCA 平面）根据半径和方位角分为多个 bin。每个 bin 中的最大高度被连接起来以形成当前位置的签名。Scan Context 的作者还建议在 Scan Context 之前使用 ring-key [17] 进行快速初步搜索，它编码了由半径确定的每个环中的占用率。图 4 给出了说明。

在我们的系统中，对于来自立体 VO 的每个关键帧，我们通过所提出的方法模拟 LiDAR 扫描，并使用我们修改的Scan Context生成其位置签名。然后我们在签名数据库中搜索潜在的闭环。我们首先通过 ring-key 搜索，它速度快但区分度较低，因此我们选择 Scan Context 的前三个候选位置来做出最终决定。

3.4 相对姿态估计

如图 2(4) 所示，对于每个识别位置，我们尝试估计当前位置和已识别位置之间的回环约束（即相对姿势）。这是通过直接对齐来实现的，如 DSO 跟踪中所做的那样，基于以下等式：

这里，和分别是当前帧和识别帧。我们正在估计，即从识别帧到当前帧的相对位姿，由 Loop Detection 中的 PCA 对齐初始化。其他变量与方程2和方程3中的变量相同。为了内存效率，我们专门将点从识别帧投影到当前帧，因为对于识别帧，我们只需要存储稀疏点而不是整个图像。

图 5：当直接对齐失败时，ICP 会找到最佳姿势，将已识别位置（红色）和当前位置（绿色）的模拟 LiDAR 扫描对齐。

虽然方程式 6 和 7 看起来类似于 DSO 中的误差项（即方程 1-3），在此优化中只有两个关键帧（即识别帧和当前帧），而不是 DSO 中的滑动窗口，因此，会有更少的点和约束；此外，对于闭环而言，照明、遮挡甚至场景等因素都会使其发生巨大变化。因此，单独的直接对齐对于闭环而言是不鲁棒的。为了确保鲁棒性，我们执行 ICP [1] 以在直接对齐不是很确定时对齐模拟的 LiDAR 扫描（方程 6-7 收敛到较大的光度误差）。图 5 显示了 ICP 的一个示例。当视觉外观发生剧烈变化时，ICP 特别稳健。尽管它在计算上比直接对齐更昂贵，但在 Loop Detection 中来自 PCA 的初始相对位姿相当准确并且有助于快速收敛。或者，可以通过直接对齐和 ICP 联合 [26] 来估计姿势，以提高准确性和鲁棒性。

最后，对由连续关键帧和闭环组成的 Pose Graph 进行优化，以提高全局的位姿精度。尽管尚未实现，但可以使用来自直接对齐或 ICP 算法的 3D 点关联来完成全局光束调整，以提高地图的一致性。

4 实验评估

为了评估DSV-SLAM系统的准确性和计算效率，我们包括了几个DSO的变体进行内部比较。特别是，我们将 DSV-SLAM 中的尺度优化与 Stereo DSO1 [31] 中采用的立体匹配方法进行了比较。我们还将基于 LiDAR 描述符的位置识别模块的性能与 LDSO [12] 中使用的传统 BoW 方法进行了比较。在外部，我们包括对立体 ORB-SLAM2 [25] 的性能评估，用于准确性和效率比较。由于该系统中使用的 Scan Context 是为城市驾驶场景设计的，因此我们主要关注两个公开可用的数据集：KITTI 视觉里程计数据集 [13] 和 Malaga 数据集 [2]。我们的实验在 Intel™i7-8750H 平台上进行，该平台具有 2.2GHz CPU、六核和 16GB RAM。我们使用 DSO 的默认设置，其中 2000 个点位于滑动窗口中的 5-7 个关键帧中进行优化（即在公式 1-3 中）。此外，当模拟激光雷达扫描进行闭环检测时，我们将激光雷达范围（即图 2（3）中的球点半径）设置为 40 米。在当前的实现中，尺度优化在主 DSO 线程中按顺序运行，而闭环部分（检测、估计和姿态优化）在单独的线程中运行。由于 DSO 和 ORB-SLAM2 固有的随机性，我们将每个算法运行 5 次，并在计算准确性和效率时计算平均值。

4.1 KITTI 数据集的评估

KITTI 数据集包含 22 个立体图像序列。前 11 个序列的真值是公开的；而其余的真值则保留用于对 VO 算法进行排名。我们专注于前 11 个序列以进行完整评估。

4.1.1 精度

为了计算精度，我们将估计的轨迹与地面实况对齐，并将轨迹的均方根误差计算为绝对轨迹误差（ATE）。由于 DSO 和 LDSO 是单目系统，不知道尺度，所以对齐是基于 Sim3；立体声 DSO、（立体声）ORB-SLAM2 和 DSV-SLAM 与 SE3 对齐。由于姿势图仅包含关键帧，因此比较基于关键帧。

表 1：基于 KITTI 数据集上以米为单位的绝对轨迹误差 (ATE) 的精度比较。带有闭环的结果用星号 (*) 标记。对于 Stereo DSO，结果是“官方结果（第 3 次实施）”；对于 DSV-SLAM，结果是“启用回环（无回环）”。

表 1 报告了 KITTI 数据集上最先进的视觉 SLAM 系统的准确性。我们对 LDSO 和 ORB-SLAM2 的结果分别与 [12] 和 [25] 中报告的结果一致。Stereo DSO 的 ATE 是使用 [31] 提供的轨迹计算的（它们不提供代码）；我们还在括号中报告了使用第 3 方实施的结果。

由于 DSO 是单目 VO，它的 ATE 由于尺度的漂移而很大，尤其是在 00、02 和 08 等长序列上。对于 LDSO，与具有闭环的序列（即 00、02、05、06 和 07）上的 DSO 相比，ATE 急剧下降。所有立体声系统都解决了尺度漂移问题。总体而言，ORB-SLAM2 在 KITTI 数据集上表现最好，这可能是由于基于特征的方法的成熟和全面的系统设计（例如，全局捆绑调整global bundle adjustment）。对于 Stereo DSO 和 DSV-SLAM，虽然在某些序列（例如 04）上的结果不如 ORB-SLAM2，但它们在一半以上的序列上实现了具有竞争力的准确性。KITTI 数据集中具有低相机帧率（10Hz）的快速车辆运动对于直接方法（即 DSO）并不理想。

图6：DSO（绿色）、DSV-SLAM（蓝色）和ground truth（红色）在KITTI序列00、02、05和06上估计的轨迹。通过尺度优化和闭环，相比DSO，DSV- SLAM 的提高十分显著。

结果表明，DSV-SLAM 的准确性与最先进的视觉 SLAM 系统相当。通过闭环，DSV-SLAM 的精度在序列 00、02、05 和 06 上进一步改进。图 6 显示了 DSV-SLAM 估计的轨迹。由于我们的带有尺度优化的立体 VO 已经非常准确，因此闭环的改进不如 LDSO 优于 DSO。然而，与 LDSO 和 ORB-SLAM2 不同，DSV-SLAM 没有捕获序列 07 中的回环。这是因为重叠的轨迹太短，无法累积局部点并模仿 LiDAR 扫描在单帧上进行BoW地点识别。

4.1.2 效率

我们研究了每个计算组件的效率，并在表 2 中报告了一个短序列 (06) 和一个综合序列 (00) 的结果。

表 2：KITTI 数据集上的运行时间比较（平均 × 执行次数）。[SM: stereo matching; SO: scale optimization; SC: Scan Context; RK: ring-key; D:direct alignment; I: ICP]

为了启用 BoW，LDSO 中的点选择被调整为更喜欢交叉特征帧匹配，然后为每个特征提取一个描述符。因此，与 DSO 相比，花费在点选择上的时间增加了。但是，Stereo DSO 和 DSV-SLAM 中的点选择与 DSO 中的一样快。我们发现 DSV-SLAM 中的尺度优化 (SO) 比Stereo DSO 和 ORB-SLAM2 中的立体匹配 (SM)更快。ORB-SLAM2 中的立体匹配基于特征描述符，速度最慢。相反，在 Stereo DSO 中，点被投影到立体框架，并在该投影周围搜索对应关系，这可能是其性能更快的原因。并且，尺度优化提供了最快的运行时间。

对于闭环，在 LDSO 中生成 BoW 比在 DSV-SLAM 中生成扫描上下文 (SC) 描述符要慢。使用 BoW 检测闭环也比使用 DSV-SLAM 中的分层搜索方法（即ring-key和Scan Context）慢。对于闭环姿态估计，DSV-SLAM 中的直接对齐比 LDSO 中使用的 PnP 方法 [15] 稍慢。虽然 DSV-SLAM 中的 ICP 要慢得多，但只有在直接法并不精确的情况下发生，对于简单的测试，这种情况发生的频率较

图 7：Malaga Dataset的结果。序列 06 中的蓝色矩形显示车辆停止大约 40 秒的位置，DSV-SLAM 中的底层 DSO 由于交通和行人而失去跟踪。由于阳光直射，序列 05 和 08 中的红色矩形也丢失了 DSO 跟踪。尽管如此，闭环在这些具有挑战性的场景中显着提高了 DSV-SLAM 的准确性。

低（06）。此外，DSV-SLAM（43.4 50 和 110 175）中可被接受的闭环的比率远高于 LDSO（37 453 和 277.6 2058）。这表明我们在 DSV-SLAM 中基于 LiDAR 描述符的位置识别方法比 BoW 方法实现了更高的精度（有关更详细的验证，请参阅 [22]）。因此，DSV-SLAM 在点选择和回环检测上节省的时间比回环姿态估计的损失更重要。此外，LDSO 在循环姿态优化上花费了更多时间；除了连续的关键帧和闭环之外，LDSO 还将每个关键帧和第一个关键帧之间的连接带到了位姿图中，以提高准确性和鲁棒性。最后，ORB-SLAM2 的闭环模块总体上要慢得多，因为它具有提高准确性和鲁棒性的复杂机制。例如，ORB-SLAM2 在其 covisibility graph 中搜索最低分数，并将其与候选分数进行比较以进行回环检测；仅当在 covisibility 图中找到三个一致且连续的回环候选时，才接受回环候选。这种保守的方法会产生相当大的计算开销。

4.2 对Malaga Dataset的评估

为了进一步验证提出的 DSV-SLAM 系统，我们评估了它在Malaga Dataset [2] 上的性能。它比 KITTI 数据集更具挑战性，因为它由各种具有不利视觉条件的测试用例组成。图 7 显示了一些具有低能见度和直射阳光的具有挑战性的场景。在评估中，我们专注于具有闭环的序列（即序列 05、06、07、08 和 10）进行测试。由于只有 GPS 数据可用作真值，而不是进行定量分析，我们在图 7 中显示了定性性能比较。我们从实验结果中观察到的结果如下：

• 总体而言，DSV-SLAM 和 ORB-SLAM2 的轨迹尺度都略微不准确。我们怀疑可能的原因是建筑物对于Malaga Dataset中使用的短基线（12 厘米）立体相机来说太远了。

• 在序列05 中，DSV-SLAM 中的DSO 跟踪由于阳光直射而在转弯处漂移（见图7 中的红色矩形）。尺度优化也多次失败。但是，DSV-SLAM 的轨迹形状仍然比 ORB-SLAM2 更准确。

• 在序列06 中，当车辆停止约40 秒时，DSV-SLAM 中的DSO 跟踪也因交通和行人而失败（见图7 中的蓝色矩形）。恢复跟踪需要几秒钟，这导致 DSV-SLAM 在没有闭环的情况下进行的轨迹估计不一致（由绿色轨迹表示）。但是，闭环会找到故障点并最终纠正轨迹。ORB-SLAM2 稍微好一点，比例更准确。

• 在序列07中，ORB-SLAM2估计的轨迹方向略有偏离，而DSV-SLAM的尺度略有偏离。

• 在序列08 中，DSV-SLAM 中的DSO 跟踪由于亮度突然变化而在红色矩形处失败。因此，没有闭环的 DSV-SLAM 的轨迹是失败的；然而，当车辆返回起始位置时，它可以通过闭环重新定位自己。对于 ORB-SLAM2，其轨迹的规模明显小于地面实况。

•最后，sequence 10 是一个长期运行，包含各种直道和转弯以及闭环，它全面测试了视觉 SLAM 算法。DSV-SLAM 生成的轨迹比 ORB-SLAM2 稍微准确一些。我们还注意到，轨迹起点和终点之间的距离因闭环而大大减少（从绿色轨迹到蓝色轨迹）。

总体而言，我们发现 DSV-SLAM 的准确性与Malaga Dataset上的 ORB-SLAM2 相当，并且通常优于 ORB-SLAM2。然而，DSV-SLAM 的计算效率更高，具有显着的余量，如表 3 所示。在 Malaga 数据集上执行 ICP 比在 KITTI 数据集上更频繁，因为直接对齐容易受到亮度变化的影响。

4.3 RobotCar 数据集的评估

RobotCar 数据集 [20] 记录在全年不同的季节，我们用它来验证基于 LiDAR 描述符的位置识别方法对 [22] 中视觉外观变化的鲁棒性。图 8 给出了快照。我们在图 9 中展示了 DSV-SLAM 在 RobotCar 数据集上的初步结果，其中我们首先播放序列“2015-05-19-14-06-38”（run1）

表 3：Malaga 数据集序列 10 的运行时间比较（平均毫秒 × 执行次数）。[SM: stereo matching; SO: scale optimization; SC: Scan Context; RK: ring-key; D: direct alignment; I: ICP]

然后我们“绑架”机器人对“2015-08-13-16-02-58”（run2）进行排序。如图9所示，DSO规模始终变大；漂移尺度通过尺度优化固定（见绿色轨迹）；通过闭环，机器人最终重新定位自身并将两次运行结合在一起（见蓝色轨迹）。我们还使用相同的设置运行 ORB-SLAM2；但是，它的跟踪始终失败。

图 8：RobotCar 数据集的快照。有许多视觉外观差异，包括树木和树叶、交通、行人和不同的亮度。

5 结论

在本文中，我们提出了第一个用于自动驾驶场景的完全直接的视觉 SLAM 系统，证明了没有特征检测或匹配的完整 SLAM 系统的可行性。我们首先使用尺度优化将单目 DSO 扩展到立体系统；然后我们集成了基于 LiDAR 描述符的位置识别方法来检测回环；对于潜在的闭环，我们使用直接对齐来估计相对姿态，该姿态得到ICP的支持当直接法失败的时候。对公共数据集的验证表明，所提出的系统实现了相当好的计算效率，同时在具有挑战性的场景中提供了相当的准确性和改进的鲁棒性。对于未来的工作，我们将考虑在模仿 LiDAR 扫描时消除向前移动的相机假设，以扩展我们的潜在用例。我们还打算通过集成 IMU 测量将系统扩展到立体视觉惯性系统，以进一步提高鲁棒性。

6 致谢

这项工作得到了美国国家科学基金会奖 IIS #1637875、明尼苏达大学博士论文奖学金和 MnRI 种子基金的支持

参考文献

[1] Paul J Besl and Neil D McKay.A Method for Registration of 3-D Shapes.In Sensor Fusion IV: Control Paradigms and Data Structures, volume 1611, pages 586–606.International Society for Optics and Photonics, 1992.

[2] Joseluis Blancoclaraco, Franciscoangel Morenoduenas, and Javier Gonza- lezjimenez.The M ́alaga Urban Dataset: High-rate Stereo and Lidars in a Realistic Urban Scenario.The International Journal of Robotics Research, 33(2):207–214, 2014.

[3] Guillaume Bresson, Zayed Alsayed, Li Yu, and S ́ebastien Glaser.Simultane- ous Localization and Mapping: A Survey of Current Trends in Autonomous Driving.IEEE Transactions on Intelligent Vehicles, 2(3):194–220, 2017.

[4] Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif, Davide Scara- muzza, Jos ́e Neira, Ian Reid, and John J Leonard.Past, Present, and Future of Simultaneous Localization And Mapping: Towards the Robust- Perception Age.Simultaneous Localization and Mapping.IEEE Transac- tions on Robotics, 32(6):1309–1332, 2016.

[5] Carlos Campos, Richard Elvira, Juan J. G ́omez Rodr ́ıguez, Jos ́e M. M. Montiel, and Juan D. Tard ́os.ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM.IEEE Transac- tions on Robotics, pages 1–17, 2021.

[6] Jakob Engel, Vladlen Koltun, and Daniel Cremers.Direct Sparse Odom- etry.IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(3):611–625, 2017.

[7] Jakob Engel, Thomas Sch ̈ops, and Daniel Cremers.LSD-SLAM: Large- Scale Direct Monocular SLAM.In European Conference on Computer Vi- sion, pages 834–849.Springer, 2014.

[8] Jakob Engel, J ̈org St ̈uckler, and Daniel Cremers.Large-Scale Direct SLAM with Stereo Cameras.In 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 1935–1942.IEEE, 2015.

[9] Christian Forster, Zichao Zhang, Michael Gassner, Manuel Werlberger, and Davide Scaramuzza.SVO: Semidirect Visual Odometry for Monocular and Multicamera Systems.IEEE Transactions on Robotics, 33(2):249–265, 2016.

[10] Jorge Fuentes-Pacheco, Jos ́e Ruiz-Ascencio, and Juan Manuel Rend ́on- Mancha.Visual Simultaneous Localization and Mapping: A Survey.Arti- ficial Intelligence Review, 43(1):55–81, 2015.

[11] Dorian G ́alvez-L ́opez and Juan D Tardos.Bags of Binary Words for Fast Place Recognition in Image Sequences.IEEE Transactions on Robotics, 28(5):1188–1197, 2012.

[12] Xiang Gao, Rui Wang, Nikolaus Demmel, and Daniel Cremers.LDSO: Di- rect Sparse Odometry with Loop Closure.In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 2198–2204.IEEE, 2018.

[13] Andreas Geiger, Philip Lenz, and Raquel Urtasun.Are We Ready for Autonomous Driving?The KITTI Vision Benchmark Suite.In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 3354–3361.IEEE, 2012.

[14] Oscar G Grasa, Ernesto Bernal, Santiago Casado, Ismael Gil, and JMM Montiel.Visual SLAM for Handheld Monocular Endoscope.IEEE trans- actions on medical imaging, 33(1):135–146, 2013.

[15] Richard Hartley and Andrew Zisserman.Multiple View Geometry in Com- puter Vision.Cambridge University Press, 2003.

[16] Guoquan P Huang, Anastasios I Mourikis, and Stergios I Roumeliotis.A First-Estimates Jacobian EKF for Improving SLAM Consistency.In Ex- perimental Robotics, pages 373–382.Springer, 2009.

[17] Giseop Kim and Ayoung Kim.Scan Context: Egocentric Spatial Descriptor for Place Recognition within 3D Point Cloud Map.In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 4802–4809.IEEE, 2018.

[18] Georg Klein and David Murray.Parallel Tracking and Mapping for Small AR Workspaces.In Proceedings of the 2007 6th IEEE and ACM Inter- national Symposium on Mixed and Augmented Reality, pages 1–10.IEEE Computer Society, 2007.

[19] Stefan Leutenegger, Simon Lynen, Michael Bosse, Roland Siegwart, and Paul Furgale.Keyframe-based Visual-Inertial Odometry using Nonlinear Optimization.The International Journal of Robotics Research, 34(3):314– 334, 2015.

[20] Will Maddern, Geoffrey Pascoe, Chris Linegar, and Paul Newman.1 Year, 1000km: The Oxford RobotCar Dataset.The International Journal of Robotics Research, 36(1):3–15, 2017.

[21] Jiawei Mo and Junaed Sattar.Extending Monocular Visual Odometry to Stereo Camera Systems by Scale Optimization.In 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 6921–6927, 2019.

[22] Jiawei Mo and Junaed Sattar.A Fast and Robust Place Recognition Ap- proach for Stereo Visual Odometry Using LiDAR Descriptors.In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 5893–5900, 2020.

[23] Anastasios I Mourikis and Stergios I Roumeliotis.A Multi-State Constraint Kalman Filter for Vision-aided Inertial Navigation.In Proceedings 2007 IEEE International Conference on Robotics and Automation, pages 3565– 3572. IEEE, 2007.

[24] Raul Mur-Artal, Jose Maria Martinez Montiel, and Juan D Tardos.ORB- SLAM: A Versatile and Accurate Monocular SLAM System.IEEE Trans- actions on Robotics, 31(5):1147–1163, 2015

[25] Raul Mur-Artal and Juan D Tard ́os.ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo, and RGB-D Cameras.IEEE Trans- actions on Robotics, 33(5):1255–1262, 2017.

[26] Chanoh Park, Soohwan Kim, Peyman Moghadam, Jiadong Guo, Sridha Sridharan, and Clinton Fookes.Robust Photogeometric Localization Over Time for Map-Centric Loop Closure.IEEE Robotics and Automation Let- ters, 4(2):1768–1775, 2019.

[27] Josef Sivic and Andrew Zisserman.Video Google: A Text Retrieval Ap- proach to Object Matching in Videos.In Proceedings of the IEEE Interna- tional Conference on Computer Vision, pages 1470–1478, 2003.

[28] Randall C Smith and Peter Cheeseman.On the Representation and Es- timation of Spatial Uncertainty.The International Journal of Robotics Research, 5(4):56–68, 1986.

[29] Sebastian Thrun.Simultaneous Localization and Mapping.In Robotics and cognitive approaches to spatial mapping, pages 13–41.Springer, 2007.

[30] Federico Tombari, Samuele Salti, and Luigi Di Stefano.Unique Signatures of Histograms for Local Surface Description.In European Conference on Computer Vision, pages 356–369.Springer, 2010.

[31] Rui Wang, Martin Schworer, and Daniel Cremers.Stereo DSO: Large-Scale Direct Sparse Visual Odometry with Stereo Cameras.In Proceedings of the IEEE International Conference on Computer Vision, pages 3903–3911, 2017.

[32] Stephan Weiss, Davide Scaramuzza, and Roland Siegwart.Monocular- SLAM-based Navigation for Autonomous Micro Helicopters in GPS-denied Environments.Journal of Field Robotics, 28(6):854–874, 2011

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-04-11，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理

本文分享自 3D视觉工坊微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

图像处理

RAL2021|基于快速直接的立体视觉SLAM

RAL2021|基于快速直接的立体视觉SLAM

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐