SO-SLAM:具有尺度比例和对称纹理约束的语义物体 SLAM
作者:Ziwei Liao, Yutong Hu, Jiadong Zhang, Xianyu Qi, Xiaoyu Zhang, Wei Wang*
链接:https://arxiv.org/ftp/arxiv/papers/2109/2109.04884.pdf
期刊:RAL2022
摘要:
物体SLAM—将物体的概念引入同步定位和建图 (SLAM) 中,并有助于理解移动机器人和物体级交互式应用的室内场景。最先进的物体 SLAM 系统面临着诸如局部观察、遮挡、不可观察问题、限制映射精度和鲁棒性等挑战。本文提出了一种新颖的单目语义物体 SLAM (SO-SLAM) 系统,该系统解决了物体空间约束的引入问题。我们探索了三种具有代表性的空间约束,包括尺度比例约束、对称纹理约束和平面支撑约束。基于这些语义约束,我们提出了两种新方法—一种更鲁棒的物体初始化方法和一种定向精细优化方法。我们在公共数据集和作者记录的移动机器人数据集上验证了该算法的性能,并在建图效果上取得了显着提升。我们将在这里发布代码:https://github.com/XunshanMan/SoSLAM。
一、引言
几十年来,机器人研究人员一直在探索如何让机器人在开放世界中自主感知、学习并与环境交互。想象一个长期服务于室内人机共存场景——家庭、博物馆、办公室等工作的服务机器人。为了响应人类指令并执行任务,它需要以下基本能力:1)在干扰环境中鲁棒的建图和定位环境。机器人需要在光照变化、传感器噪声和大视角变化的干扰下稳健地检测和定位地标;2) 人类指挥中环境信息的建模、提取和推理;3)环境变化检测和地图终身维护。机器人需要处理椅子和茶杯等物体的随机放置,以及家具的添加和移除。
图 1. 物体 SLAM。(它可以构建包含中心、方位和占用空间等物体的地图,帮助机器人理解人类的面向物体指令。)
然而,传统的 SLAM 算法使用点、线和平面特征来构建地图,缺乏语义信息 [1]。人工设计的特征描述符难以适应大的视角变化,并且容易受到光和传感器噪声的干扰[2]。传统的 SLAM 算法大多基于环境的静态假设。基于点、线、面的地图很难根据环境的变化进行更新。因此,传统的 SLAM 算法远远不能满足室内服务机器人的需求。
我们认为,物体作为室内环境的重要组成部分,在表示室内环境方面具有以下潜在优势:
1)物体的空间信息可以通过中心、方位、占用空间等更高级的抽象特征来表达。它是点、线和平面特征的综合和高级版本。它对原始观测数据的变化不敏感,并且直观地对强干扰更加鲁棒。
2)物体和结构(例如墙壁)之间的空间关系可以用作辅助约束,以提高物体参数和相机位姿估计的鲁棒性和准确性。同时,它们有利于机器人从几何层面到语义层面对场景的理解,为机器人执行高级面向物体指令奠定基础。
基于上述讨论,我们提出了一种单目物体 SLAM 系统,该系统构建了如图 1 所示的物体级地图。我们将讨论三个具有代表性的物体空间约束:尺度比例约束、对称纹理约束和平面支撑约束。我们将在 SLAM 系统中推导出它们的数学表示和约束模型,以参与前端初始化和后端优化。与之前的物体SLAM 系统相比,我们将做出以下贡献:
1)提出一种单目物体 SLAM 算法,该算法完全耦合了室内环境的三个空间结构约束。
2)提出两种基于空间约束的新方法:单帧物体初始化方法和物体定向优化方法。
3)在两个公共数据集和作者记录的真实移动机器人数据集上验证所提出算法的有效性。
二、相关工作
A. 物体 SLAM
物体 SLAM 或物体级 SLAM,侧重于物体特征的构建,包括物体的位置、方向、占用空间以及与地图中空间结构的关系,如图 1 所示。物体 SLAM 的探索可以追溯到 SLAM++ [3]。它离线建立物体CAD模型数据库,然后在实际操作中使用RGB-D相机的深度信息匹配物体数据库。2019 年,马丁等人。[4] 提出了 MaskFusion,它使用神经网络来检测物体,不需要数据库。它实时检测和跟踪动态物体。然而,受限于其密集的物体模型,上述系统需要大量的计算硬件来实现实时和高速操作。
2019 年,杨等人。提出了 CubeSLAM [5],它使用长方体对环境中的物体进行建模。自 2017 年以来,研究人员 [6] [25] 探索了使用二次模型从运动中表示结构领域中的物体。2019 年,Nicholson 等人。提出了 QuadricSLAM [7],这是第一次用二次曲线构建物体 SLAM 系统。
与特征点相比,长方体和二次曲面不仅可以表达位置,还可以表达方向和占用空间,足以满足机器人导航的需要。长方体是人类定义的模型,而二次曲线具有紧凑的二次数学表示和完整的射影几何[8]。最近,二次模型越来越受到研究人员的关注[9]-[15],甚至超二次模型[17]也在探索之中。
B. object SLAM 中的语义先验
QuadricSLAM 仅使用物体检测作为观察源,使其在真实环境中变得脆弱。一方面,与理想的环视轨迹不同,典型的直线前进机器人移动路线难以产生角度变化较大的多帧观测,从而引发不可观测性问题[10]。另一方面,由于物体框主要约束占用空间,二次界标的方向相对随机,没有意义。
为了使系统更加鲁棒,研究人员进一步探索了方向的含义。在 [12] 中,引入了重力和支撑平面,它定义了“顶”侧。OK等人在 [10] 提出了纹理平面,它基本上定义了“前”侧。此外,还应用了深度学习方法来帮助估计椭圆体 [13]。
作者探索了 RGB-D camera for quadrics [14] 的引入,并尝试了 RGB-D 数据下基于对称性的物体方向估计 [15]。本文将进一步探索基于单目相机的二次曲面算法。当缺少 RGB-D 信息时,单目算法可以起到有效的辅助作用,确保系统在现实场景中的鲁棒性。此外,单目相机更方便、成本更低、重量更轻,这使得该算法可用于更广泛的应用,例如手机和无人机。总之,之前的论文表明,基于二次模型的物体 SLAM 系统被越来越多的研究人员所接受。然而,仍有很大的研究空间可以使系统在现实世界中更加鲁棒和准确。
三、单目物体 SLAM 框架
我们将 3D 空间中的点表示为集合
,将图像中的像素表示为
。摄影过程表示为
,其中 P 是相机投影矩阵。椭球是一个点集,其中
。由于完全由 Q 决定,我们同样可以称 Q 为椭球。用 Q 表示一个物体意味着假设物体的所有表面点都在椭球 Q 上。
系统的前端输入包括单目图像和里程数据。物体检测算法(例如,YOLO [16])从 RGB 图像中提取边界框。一个椭球有 9 个自由度,可以使用 SVD 方法估计,这需要至少 3 帧具有足够视图多样性的观察 [7]。正如相关工作中提到的,这种方法不仅脆弱,而且定位的准确性也有所欠缺。
类人的方向感知对于服务机器人理解物体并与之交互是必要的。我们遵循人类的认知习惯,认为人造物体的“顶部”往往是物体支撑面的反面,而“正面”往往是对称的方向,例如:汽车和椅子。前者定义了Z轴的方向,后者定义了X轴的方向,因此物体的三个轴是完全固定的。之后,我们可以利用更多的先验,例如物体的支持关系和每个方向的尺度。这些约束进一步允许我们提出一种只需要一帧的物体初始化方法,克服了 SVD 方法难以满足的要求,并在前端提供更准确的方向。
在后端,我们将物体 SLAM 问题建模为一个位姿图,包括由物体和相机位姿组成的节点,以及由约束组成的边。物体SLAM 公式可以表示为一个非线性优化问题:
其中 X 是相机位姿,Q 是地图中的对象。FZ是相机-物体观察约束,FO是里程计约束,两者在文献[7]中都有详细介绍。本文重点介绍新增的FS,由平面支撑约束、语义尺度先验和对称约束组成,将在以下部分中介绍。H(·) 是使系统对异常值更加鲁棒的鲁棒内核,我们在实验中使用 Huber Kernel。
四.带有语义先验的单帧初始化
本文提出了一种从单帧观察中获得 9 度约束以初始化完整椭球的方法。该过程如图2所示。该过程将使用以下三个约束源—物体检测约束、平面支撑约束和尺度比例约束。后两个约束是空间结构约束。
图 2. 在单帧中恢复二次曲线的过程示意图。(物体检测框反投影的切面与物体支撑面共同约束椭球体,沿观察方向的深度不确定性将进一步引入比例约束进行估计。)
A. 物体检测约束
如图 2 所示,在一帧中观察放置在其支撑平面上的物体O。图像中物体检测算法生成的物体边界框为b。一般来说,物体的深度和尺度仅通过一次观察是未知的。设 b的四个边为li, i= 1,2,3,4,则每条边都可以反投影产生一个平面:
每个平面将与物体O的对偶二次曲面模型 Q∗ 形成一个切线约束,即:
所以,一个物体检测约束将与物体构成一个 4 个自由度的约束,可以表示为:
其中
是边界框的协方差矩阵。我们在实验中使用
。
B.平面支撑约束
在正常的室内环境中,要克服重力,物体必须与空间结构形成几何关系。例如,桌子上的杯子、天花板下的灯和墙上的画。本文介绍了结构平面位于物体下方时最常见的支撑关系。悬吊、精益等关系可以用类似的方法推导出来。
其中,
是椭球 Q∗ 的X轴法线。此外,二次曲面 Q∗ 应该与平面πs相切,如:
因此,支撑平面πs可以对物体 Q∗ 提供三个自由度度约束:
其中,
是旋转协方差,
是切线协方差。我们在实验中使用
。当椭球的 Z 轴垂直于支撑平面且其底部与支撑平面相切时,约束误差变得最小。
C.语义尺度比例约束
同一类别的室内人造物体的尺度具有一定的分布,这也是物体语义的几何反映。已经有一些研究讨论了如何将物体比例先验约束应用于物体映射。OK等人在 [10]中假设汽车的尺寸是已知的。然而,它的灵活性是有限的,它不能适应具有相同标签的特定实例的规模模糊性,例如,一辆真车和一辆小型玩具车。
本文提出了一种新的灵活物体比例先验——Scale Proportional Constraint (SPC),它限制物体的尺度比例而不是其特定的比例。假设物体的比例为
其中a,b,c是其X,Y,Z轴的一半比例。那么我们可以定义它的比例如下:
对于不同语义标签的物体,可以定义一个普通物体的比例表,通过查询得到比例该表在实际应用中。在实际使用中,可以通过对常见物体类型的尺度进行平均得到该表。
给定一个物体Q0* ,它的尺度比
可以根据定义计算。其对应的语义尺度比
可以通过根据其语义标签l0查询该表得到。假设尺度方差为 Σssc ,带有语义标签的物体 Q0* 的尺度比约束为:
我们在实验中使用 Σssc = 1 .当物体Q0*的尺度值与其语义尺度先验值r0一致时,约束误差最小。
D.求解单帧初始化
由于约束形式多样,很难直接得到解析解。我们基于 Levenberg-Marquardt 算法 [18] 构建了一个非线性优化器,并迭代求解最优值。目标函数定义为:
包括目标检测约束、平面支撑约束和比例约束。
图 3. (a) 两个物点关于平面的对称关系 (b) 求解图像中对称像素的过程。
图 4. (a) 投影变形后对称点的边缘距离不再相等。(b) 边缘点归约映射的线性化。
V. 纹理对称的方向优化
A. 物体对称性的数学描述
我们试图通过物体的对称性来进一步约束物体的方向性,这在人造物体中很常见。本章的以下部分仅关注对称物体。在几何上,人造物体的正面通常被认为是其对称平面的方向。我们认为它对应于物体坐标系的 X 轴方向,如图 3(a) 所示。
一个物体的对称性在数学上由以下事实表示:对于物体上的任何点,总是可以找到一个关于其平面xz对称的点
。由于假设物体是椭球体,对称平面可以由矩阵 Q 中的元素表示。两点关于平面的对称关系具有明确的线性表示[26],记为
。考虑到物体具有多个对称面如盒子和球,我们统一建立物体初始化时找到的第一个对称面的方向为正X轴方向。
对于特定物体 Q ,
是图像平面上 Q 表面上的点的集合,则图像上的像素点
到 3D 上的点
的恢复映射物体的表面是
,使得 v 满足
,则 v 满足:
将 (a) 代入 (b) 得到一个关于 v 的二次方程,它至多有一个由 (c) 解决的问题。
因此, 对于图像中的物体点u0,我们可以得到它的对称像素点us 0:
过程如图3(b)所示,我们写为:S:UU 找到对称像素对后,我们希望找到一个描述符β(.):U R , 来描述对称性. 具体来说, 我们希望β(.)具有以下性质
当β(.)满足 (15) 时,我们说β(.)是对称投影不变量。之后,当观测有噪声时,我们可以使用成本函数fsym优化椭球Q
下一步是找到描述符β(.)
B. 对称描述符的构造
描述符β(u) 需要反映 u 的一些特征,即对称投影不变量。我们做了不同的尝试,并在第六节进行了比较。
最初步的选择是像素的灰度值βGRAY(u) ,它连同它的变体在直接法 SLAM 中被广泛使用,但在实际情况下不够鲁棒。然后我们尝试了BRIEF描述符βBRIEF(u),它可以反映附近的纹理信息。为了保证对称不变性,纹理在u0附近的采样顺序和它的对称点us 0应该是相互对称的,如图 3(a) 所示。
然而,在使用bBRIEF(u)的优化过程 (16) 中,在每个采样点ui固定的情况下,对称点
会随着 Q 的优化迭代而变化,因此
需要在每个迭代步骤中重新采样和重新编码,这严重减慢了算法的速度。然后我们试图找到一个更轻量级的描述符来满足 SLAM 的实时性要求,这导致我们考虑像素的距离变换值。
式(17)的意思是像素点到图像边缘任意像素的最近距离,它部分反映了物体的纹理。在优化之前,对于目标检测帧中的所有像素点,它可以有效地计算一次。然后,可以在每次迭代期间查询其值。
然而,这个描述是否是对称投影不变量是值得怀疑的。例如,考虑图 4(a) 中的情况。请注意是v0的最近边缘点,并且由于对称物体具有对称的边缘线,因此我们有
。但受投影畸变的影响,投影回图像后方程不再成立,即
,所以 β2DT(.) 不能满足(15)。然而,由于边缘对称性,我们发现点v0的最近边缘距离,记为B3DT(v0),满足
其中B3DT(.)的定义是
但与图像上不同的是,在 3D 空间中计算B3DT(v0)需要遍历每个边缘点以找到最近的一个每次迭代,这使得计算成本再次无法接受。我们的解决方案是结合β2DT(.) 和 B3DT(.) 的优点,并提出改进的 DT 描述符。为了使其在一定条件下对称投影不变,同时保留查询的轻量级特性,
(20)的动机是替换
通过它的近似
这样我们就不必遍历边缘点来获得 3D 空间中的最近点。此外,我们可以定义描述符
在假设 (20) 下,β3DT(u0) 是对称投影不变量,可以通过简单地查询 uE i 并取
来获得。uE i可以通过对原始距离变换算法稍作修改得到:不仅保存每个像素到边缘的最短距离,还保存对应的边缘像素坐标。
图 5. (a) 采样边缘点(左)及其成本函数(右) (b) 均匀采样(左)及其损失函数(右)
C. 进一步加速优化过程
使用改进型DT描述符β3DT(.) ,成本函数为
在优化过程中的每一次迭代中,fsym(Q) 需要重新计算,Q 改变,采样点 {ui} 固定。虽然us i仍然随着更新而改变,但(us i)E可以得到直接通过查询,大大加快了优化过程。为了进一步加快优化过程,当计算非线性映射
中的每个耗时步骤(13.b)时,因为
已经满足并且uE 0接近u0,考虑
在v0处的线性化:
其中
是皮亚诺余数。
的几何意义是:vE 0位于Q’切平面Qv0上,如图4(b)所示。用
替换(13.b)相当于逼近射线与切平面的交点,而不是二次曲面,二次曲面的解有明确的线性表示[8]。设近似计算为
,则损失函数为
也就是说,在每个迭代中,采样点映射
计算准确,边缘点映射
近似计算,进一步加速了优化过程。
D. 采样点策略
我们已经详细描述了描述符的构建过程以及如何加速优化过程,只剩下如何获取采样点{ui}。由于
在(23)中,线性化逼近仅在
时有效.因此,我们采用两种点采样策略:
一种是对角点进行采样,可以认为是更严格的边缘点,可以保证
.但也因为接近,理论上会有
,这可能会导致最优值附近的梯度消失问题,如图 5(a)。另一种是对边界框中的点进行均匀采样。如图5(b)所示,梯度问题得到显着改善,但
不太满足。我们发现在我们的实验中,使用角点和几个统一的点可以达到最好的效果。
图 6. 物体初始化结果。
图 7. 不同描述符的对称成本函数
图 8. 对称约束前后的结果 (a) 对象界标 (b) 成本函数值(典型案例) (c) 成本函数值(失败案例)
六、实验
A. 背景
为了充分验证本文提出的单帧初始化、纹理方向优化和完整的系统性能,我们在公共数据集和作者记录的真实机器人数据集上进行了实验。TUM RGB-D [19] 和 ICL-NUIM [20] 数据集广泛用于 SLAM,涵盖房间级和桌面级环境。为了更好地反映移动机器人的有效性,我们在一个turtlebot3上进行了实验,它带有一个在类似家庭的环境中运行的Kinect相机,如[14]中所述。我们仅在实验中使用 RGB 通道。我们每五张图像用 YOLO 执行目标检测以获得边界框。
我们使用指标 IoU 和 Rot(deg) 来全面评估映射效果。IoU 评估估计物体和真实物体的外接立方体之间的交集。对于具有对称性的物体,Rot(deg) 评估将估计物体的三个旋转轴与地面实况物体的任何轴对齐到一条直线所需的最小旋转角度。对于一条轨迹,上述指标是所有物体评价结果的平均值。尽管我们的方法可以只用一个观察值进行初始化,但 SVD 和 QuadricSLAM 至少需要三个观察值。为了使实验具有可比性,我们考虑那些具有至少三个观察值的物体并过滤那些部分边界框(靠近图像边缘小于 30 像素的那些),以便所有物体都可以成功初始化。
由于平面提取不是我们的重点,因此在实验中,我们在世界坐标系中对支持平面进行了注释,然后将其转换为每一帧的局部坐标,以获得地面真实平面。通过这种方式,我们可以知道我们提出的方法的准确性限制。在实际场景中,支持平面可以从 SLAM [2] 生成的点云中提取,也可以直接通过平面 SLAM 系统 [21] 提取。对于轮式移动机器人,在考虑地面上的物体时,在启动前对相机与地面相关的外部参数进行标定后即可得到地平面参数。
B. 单帧物体初始化
我们将我们的结果与最先进的算法 QuadricSLAM [7] 的初始化方法 SVD 和 CubeSLAM [5] 的初始化方法进行比较。SVD 方法至少需要三帧观察。我们在实验中将物体的所有观察结果放在一起进行 SVD 初始化。和我们的一样,CubeSLAM 引入了支撑平面来约束物体的方向。我们将 CubeSLAM 论文中给出的室内数据集的实验结果进行比较。我们以估计物体和真实物体之间的 IoU 为基准,并对轨迹中的所有物体进行平均。
表 I 和图 6 显示了结果。SVD方法不仅需要更多的观察次数,而且准确度也较低。尤其是在机器人轨迹中,移动机器人的前向运动很难在观察之间产生足够的视角差异,导致 IoU 仅为 0.5%。与 SVD 方法相比,CubeSLAM 的初始化只需一次观察即可获得更好的结果。CubeSLAM需要提取线特征来计算消失点,这就要求物体表面有明显的直线。我们的不仅需要一次观察,而且对于物体的线特征没有要求。它对纹理类型有更好的适应性。即使使用 1:1:1 的比例约束(参见 Init1-1),我们的平均 IoU 也达到 16.3%。使用语义物体语义先验(参见 InitP),它上升到 21.8%,比 SVD 显着增加了 13%。相比 CubeSLAM 在 ICL room2 上公布的数据,也有 15.4% 的增长。Fr3_cabinet 只包含一个长方体物体,CubeSLAM 显示了最好的结果。
C. 基于纹理对称性的方向估计
为了验证本文提出的改进-DT 描述符在表示物体对称性方面的有效性,我们分析了与灰度、BRIEF 和 DT 描述符相比的成本,如图 7 所示。垂直线标记当前帧中物体的ground-truth ( ) 偏航角。改进的 DT 描述符在真实值附近具有明显的全局最优值,而其他描述符具有多个局部最优值。随着物体方向的变化,其误差变化更平滑、更显着。因此,在优化过程中有更好的局部梯度来约束。
接下来,我们使用改进的 DT 描述符来估计物体的方向,如图 8 所示。表 II 和 IV 分别显示了单帧初始化(见 InitPT)和多帧优化(见 OursPT)后的物体方向精度.我们只考虑每个物体第一次观察的纹理约束,以避免约束冲突。SVD初始化和QuadricSLAM的定向结果作为参考。虽然 SVD 初始化和 QuadricSLAM 可以求解一个完整的椭球体,但它们并没有明确地约束物体的方向,因此平均方向误差比较大,分别达到了 39.9 度和 31.7 度。在引入物体支持约束和默认比例(Init 1-1)、真实尺度比例先验(InitP)和纹理(InitPT)后,方向误差得到改善,最终达到11.9度,与SVD相比提高了64%。通过多帧优化,方向(OursPT)提高到 11.5 度,其 IoU 从 0.215 增加到 0.286。这种准确性对于涉及面向物体的语义导航应用程序来说是足够的,例如“移动到桌子的前面”和“移动到长凳的一侧”这样的命令。
我们还发现了一些可以指导未来工作的失败案例。在 ICL-NUIM 数据集上,椅子、长凳等大型物体的定向精度达到了几度左右。然而,在 fr1_desk 和 fr2_desk 数据集上,书籍和键盘等小物体的方向达到 30-40 度。我们发现小物体的中心和尺度估计较差,这使得纹理约束中的三维对称点不准确。如图 8(c) 所示,遮挡还会导致某些集群环境的减少,这揭示了多帧优化的必要性。
D. 多帧优化
为了与最先进的算法进行比较,我们再现了 QuadricSLAM 的性能,这是一个最先进的具有二次曲面的单目物体 SLAM 系统。QuadricSLAM 使用 SVD 方法初始化物体,然后在后端进行优化。数据关联问题决定了观察属于地图中的哪些物体。已经有工作[22]专注于这个问题。我们之前的工作 [14] 还讨论了将二次模型与非参数位姿图相结合来解决数据关联问题。QuadricSLAM 论文在实验中使用人工标注的数据关联。由于数据关联不是本文的重点,我们还对 QuadricSLAM 和我们的数据关联使用手动注释的数据关联来证明实验中的最佳有效性。
表 III 和表 IV 显示了 IoU 和方向精度。与 SVD 初始化相比,QuadricSLAM 的 IoU 和方向都得到了改进。借助平面支持约束和语义先验,没有纹理的 Ours(参见 OursP)实现了更好的 IoU,方向为 0.285 和 14.12 度。在上述基础上进一步引入纹理对称约束(见OursPT)后,方向提升至11.47度,IoU略有提升。总的来说,与 QuadricSLAM 相比,我们的 IoU 提高了 138.3%,方向提高了 63.9%。在 fr2_dishes 和 fr3_cabinet 中,与 QuadricSLAM 相比差距更小,因为在这些数据集中,相机轨迹围绕物体并产生足够的观察,这有利于 QuadricSLAM 的优化。
E. 计算分析
我们在 C++ 中实现了该算法,并使用 g2o 库进行图优化。我们展示了在配备 Intel Core i5-7200U,2.50GHz CPU,8GB RAM的笔记本电脑在 fr1_desk 数据集上运行的耗时,如表 V 所示。请注意,不包括物体检测算法。我们的算法可以在普通 CPU 上实时运行。
F.讨论
纹理方向约束在优化之前仍然与二次曲面本身的精度密切相关。我们假设将方位估计与二次曲线的其他自由度解耦将有可能进一步提高方位估计效果。我们探索了几种类型的对称描述符。其他更复杂的手动设计的描述符,例如 FREAK [24],也有可能用于估计对称性。我们将其留作未来的工作,以通过我们基于椭圆体的深度估计来探索它们的有效性。我们在本文中讨论了水平放置在支撑平面上的物体,因此探索如何通过 3D 旋转来估计物体姿态是一项有价值的未来工作。
轨迹精度是 SLAM 的一个重要指标。我们没有发现引入物体后轨迹精度的显着提高。QuadricSLAM 和我们之前的工作 [14] 都显示了相同的结论。我们认为是因为 ORB-SLAM2 提供的里程计数据已经比较准确。在 fr2_dishes 和 fr3_cabinet 等低纹理环境中,有更明显的改进,显示了物体级特征的鲁棒性。我们认为物体特征的潜力在于处理长期变化、社交导航、操纵等高级理解,而不是定位准确性。
七.结论
本文提出了一种单目物体 SLAM 系统,该系统使用二次曲线对物体进行建模并构建物体级地图来表示环境。本文介绍了三种空间结构约束——尺度比例约束、对称纹理约束和支撑平面约束。基于这些约束,本文提出了两个新的模块——单帧初始化和方向精细优化,显着降低了物体SLAM 系统对观测数量和变化的依赖。这些方法有望让物体 SLAM 更好地适应真实的复杂环境。面向物体的对称约束为语义导航提供了更多信息,并有助于估计物体的尺度和中心。考虑到未来的工作,有希望进一步探索更多类型的空间约束和物体的语义先验,以帮助 SLAM 过程。
参考文献
[1] Cadena, Cesar, et al."Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age."IEEE Transactions on robotics 32.6 (2016): 1309-1332.
[2] Mur-Artal, Raul, Jose Maria Martinez Montiel, and Juan D. Tardos."ORB-SLAM: a versatile and accurate monocular SLAM system."IEEE transactions on robotics 31.5 (2015): 1147-1163.
[3] Salas-Moreno, Renato F., et al."Slam++: Simultaneous localisation and mapping at the level of objects."Proceedings of the IEEE conference on computer vision and pattern recognition.2013.
[4] Runz, Martin, Maud Buffier, and Lourdes Agapito."Maskfusion: Real- time recognition, tracking and reconstruction of multiple moving objects."2018 IEEE International Symposium on Mixed and Augmented Reality (ISMAR).IEEE, 2018.
[5] Yang, Shichao, and Sebastian Scherer."Cubeslam: Monocular 3-d object slam."IEEE Transactions on Robotics 35.4 (2019): 925-938.
[6] Rubino, Cosimo, Marco Crocco, and Alessio Del Bue."3d object localisation from multi-view image detections."IEEE transactions on pattern analysis and machine intelligence 40.6 (2017): 1281-1294.
[7] Nicholson, Lachlan, Michael Milford, and Niko Sünderhauf."Quadricslam: Dual quadrics from object detections as landmarks in object-oriented slam."IEEE Robotics and Automation Letters 4.1 (2018): 1-8.
[8] Hartley, Richard, and Andrew Zisserman.Multiple view geometry in computer vision.Cambridge University Press, 2003.
[9] Gaudillière, Vincent, Gilles Simon, and Marie-Odile Berger."Camera relocalization with ellipsoidal abstraction of objects."2019 IEEE International Symposium on Mixed and Augmented Reality (ISMAR).IEEE, 2019.
[10] Ok, Kyel, et al."Robust object-based slam for high-speed autonomous navigation."2019 International Conference on Robotics and Automation (ICRA).IEEE, 2019.
[11] Hosseinzadeh, Mehdi, et al."Structure aware SLAM using quadrics and planes."Asian Conference on Computer Vision.Springer, Cham, 2018.
[12] Jablonsky, Natalie, Michael Milford, and Niko Sünderhauf."An orientation factor for object-oriented SLAM."arXiv preprint arXiv:1809.06977 (2018).
[13] Hosseinzadeh, Mehdi, et al."Real-time monocular object-model aware sparse SLAM."2019 International Conference on Robotics and Automation (ICRA).IEEE, 2019.
[14] Liao, Ziwei, et al."RGB-D object SLAM using quadrics for indoor environments."Sensors 20.18 (2020): 5150.
[15] Liao, Ziwei, et al."Object-oriented slam using quadrics and symmetry properties for indoor environments."arXiv preprint arXiv:2004.05303 (2020).
[16] Redmon, Joseph, et al."You only look once: Unified, real-time object detection."Proceedings of the IEEE conference on computer vision and pattern recognition.2016.
[17] Tschopp, Florian, et al."Superquadric Object Representation for Optimization-based Semantic SLAM."(2021).
[18] Boyd, Stephen, Stephen P. Boyd, and Lieven Vandenberghe.Convex optimization.Cambridge university press, 2004.
[19] Sturm, Jürgen, et al."A benchmark for the evaluation of RGB-D SLAM systems."2012 IEEE/RSJ International Conference on Intelligent Robots and Systems.IEEE, 2012.
[20] Handa, Ankur, et al."A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM."2014 IEEE international conference on Robotics and automation (ICRA).IEEE, 2014.
[21] Yang, Shichao, et al."Pop-up slam: Semantic monocular plane slam for low-texture environments."2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).IEEE, 2016.
[22] Bowman, Sean L., et al."Probabilistic data association for semantic slam."2017 IEEE international conference on robotics and automation (ICRA).IEEE, 2017.
[23] Thrun, S., & Wegbreit, B. (2005, October).Shape from symmetry.In Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1 (Vol. 2, pp.1824-1831).IEEE
[24] Alahi, Alexandre, Raphael Ortiz, and Pierre Vandergheynst.“Freak: Fast retina keypoint.”Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on.IEEE, 2012.
[25] Gay, P., Rubino, C., Bansal, V., & Del Bue, A. (2017).Probabilistic structure from motion with objects (psfmo).In Proceedings of the IEEE International Conference on Computer Vision (pp. 3075-3084).
[26] I. Vaisman, Analytical Geometry.World Scientific Publishing Company, 1997.
本文仅做学术分享,如有侵权,请联系删文。