文章:A Survey on Monocular Re-Localization: From the Perspective of Scene Map Representation
作者:Jinyu Miaoa, Kun Jianga, Tuopu Wena, Yunlong Wanga, Peijing Ji
编辑:点云PCL
公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。侵权或转载联系微信cloudpoint9527。
摘要
单目重新定位(MRL)在自主应用中具有关键地位,通过单个单目图像估计相对于场景地图的六自由度位姿。近几十年来,MRL技术取得显著进展,许多里程碑算法在定位精度和对视觉干扰的鲁棒性方面取得非凡成功。然而,在MRL研究中,场景地图的不同表示形式影响MRL方法的工作和性能。该综述通过对使用单目摄像头的MRL方法进行全面回顾,填补了现有综述中缺少地图方面的系统评估。主要内容包括:对MRL问题的定义和挑战的深入讨论,与现有综述的比较,MRL方法根据地图表示形式的分类,公共数据集的回顾和典型MRL方法的性能评估,以及对不同类型MRL方法的优缺点进行分析。此外,介绍了该领域的一些研究方向和个人观点。该综述可为对MRL感兴趣的新研究者提供有价值的参考材料,同时提供了一个持续更新的综述摘要,包括审阅过的论文和数据集,可在以下链接公开获取:https://github.com/jinyummiao/map-in-mono-reloc
图1:MRL发展概览。a) 每年以“视觉重定位”为标题的发表论文数量,b) MRL研究中的一些里程碑。
主要贡献
本综述的主要贡献可以总结如下:
图2:本综述的结构。
内容概述
单目定位的挑战
单目重新定位(MRL)已经发展了几十年,在许多应用中取得了许多巨大的成功。然而,巨大的挑战仍然阻碍了MRL方法在真实世界自主性中的发展和使用。在图3中,给出了MRL算法的一些主要挑战:
图3:MRL方法的典型挑战。a)日夜变化,光照不断变化,b)季节变化,不同天气条件(夏天晴朗,冬天多雪),c)视点剧烈变化,d)外观相似的不同场所,称为感知混叠问题。
地理标记帧地图
在建图阶段,许多帧都被标记了地理位置,甚至是精确的六自由度(6 DoF)姿势。这些地理标记帧可以作为MRL方法中的场景地图。在这一领域中,一些提案通过检索到的地理标记帧的历史姿势(图4a)或查询图像与地理标记帧之间的估计相对姿势(图4b)来估计自身位姿。
图4:使用地理标记帧作为地图的MRL方法示意图,包括a)VPR和b)RPR方法。
视觉地点识别(VPR) :在给定当前查询图像的情况下,VPR通过检索参考图像来识别车辆返回到先前访问的场景时重新观察到的地点,通常用作分层定位流水线中的粗略步骤,或者作为同时定位与地图构建(SLAM)系统中的环路闭合检测(LCD)模块。检索到的参考图像的姿势可以被视为当前查询图像的近似姿势。
相对姿势估计(RPR) :RPR方法旨在估计查询图像与地图中的参考图像之间的相对姿势,由于成对RPR的尺度恢复尚未完全解决,RPR方法无法实现非常高精度的定位性能。但是,对场景地图的低要求仍然使得RPR在轻型应用(如增强现实)中引起越来越多的关注。
视觉地标地图
视觉地标地图作为场景地图中最常用的表示格式,是通过运动结构(Structure from Motion,简称SfM)或同时定位与地图构建(Simultaneous Localization and Mapping,简称SLAM)构建的。视觉地标是通过三维重建从二维像素中提取的一些信息丰富而代表性的三维点,它们与各种观测图像中的对应局部特征相关联,包括二维关键点和高维描述子,如图7所示。
图 7: 使用视觉地标地图的MRL方法示意图
局部特征提取-匹配:局部特征检测图像中的大量显著像素(表示为关键点),并使用高维向量(表示为描述符)描述关键点的邻域。在VL-MRL方法的背景下,局部特征用于获取图像之间准确的2D-2D像素级对应关系。局部特征算法检测到的关键点应在不同的图像条件和质量下是可重复的,同时位于显著区域,以便由局部特征构建的视觉地标可以是稀疏的但富有信息,以代表整个场景。并且描述子应被指定为在不同视图之间准确建立检测到的特征点之间的对应关系,因此它们需要对典型的视觉干扰具有不变性。如图8所示,大多数先进的局部特征即使在高性能GPU设备上也无法满足效率要求,这阻碍了局部特征算法在实时应用中的使用
图8:在HPatches数据集上的每秒处理帧数(FPS)和平均匹配精度(MMA)
局部特征提取-匹配方案在大多数情况下表现良好,并长时间支持高精度的VL-MRL。然而,仍然存在一个根本缺陷,即如果提取的局部特征非常糟糕,则无法进行良好的匹配。对于匹配的监督只能优化匹配模块,但不能在提取模块上做任何努力,如图9a所示)。为解决这个问题,提出了联合局部特征提取和匹配解决方案,或称为免检器匹配。
图9:a) 局部特征提取-匹配方法和b) 提取与匹配方法的示意图。
联合提取与匹配方案:联合提取与匹配方案突破了需要首先提取优秀局部特征的匹配限制,在具有挑战性的场景中实现了令人印象深刻的匹配性能,使VL-MRL方法更加实用,但它需要Iq和Ir作为输入,这要求场景地图另外保存Ir,增加了场景地图的存储成本。需要探索一种存储友好的方案。
图10: 由SuperPoint+ SuperGlue、DRCNet和 LoFTR 等局部特征匹配的一些实例
位姿求解器:在给定准确的2D-3D对应关系的情况下,PnP是一个成熟的问题,可以得到很好的解决,可以精确地估计姿势。然而,在大多数实际情况下,2D-3D对应关系通常存在许多甚至主导性的不匹配,给姿势估计过程带来挑战,PnP求解器通常集成到RANSAC循环中,以更稳健、更精确地估计。
进一步的改进 :除了特征提取、匹配和位姿求解器之外,还有一些尝试改进VL-MRL方法的工作。
图11:点和线互补,以实现更好的定位
Point Cloud Map (点云地图)
由于保存了高维特征描述子,视觉地标地图对存储有很大需求。外观的敏感性(例如,光照)也对使用单目摄像头进行地图构建产生挑战,并影响了视觉地标地图的重建。作为替代方案,激光雷达可以提供对场景地图几何结构的直接和精确的3D感知,由高精度激光雷达构建的点云地图通常是不受照明影响的,并且通常比视觉地图更精确。
图12:四种典型的跨模态I2P定位方法的示意图,包括基于几何的a) G-I2P,和基于学习的 b) I2P-VPR,c) I2P-RPR,以及d) I2PMLoc。
基于几何的跨模态定位:基于几何的Image-to-Point cloud (G-I2P)方法通过传统的几何规则在LiDAR地图中定位摄像头。在G-I2P的研究中,立体摄像头是一个自然的选择,因为我们可以通过立体匹配轻松将2D图像数据提升到3D,从而使摄像头与点云地图之间的对齐变得更加容易。对于G-I2P,已经做出了许多尝试并取得了令人瞩目的成功,但所有这些工作都需要集成到视觉里程计(VO)流程中,以获得位姿的初始猜测,并且仅使用一个单目图像进行重新定位较为困难。这些方法往往在点云地图中应用连续的重新定位来进行绝对姿势估计,以便将绝对约束添加到VO系统中,缓解长期探索中的漂移问题。
基于学习的跨模态定位:跨模态视觉地点识别(I2P-VPR):最近,学者们开始探索基于深度学习的方法,通过仅使用一个单目图像实现I2P定位。首先,许多研究将GF-VPR方法引入到这个跨模态I2P定位任务中,并提出了I2P-VPR算法。跨模态数据之间的固有差异使得I2P本地化变得困难。借助高维CNN特征,跨模态数据的匹配变得可能。总体而言,I2P-VPR仅用于检索参考点云片段并提供粗略的姿势估计。I2P-RPR和I2P-MLoc可以提供更精确的姿势估计。I2P-RPR避免了显式的特征匹配和姿势求解器,训练成本较低,但无法实现非常高的本地化精度。相反,I2P-MLoc在跨模态本地化任务中表现最佳,展现了良好的发展前景。
矢量化高精地图
在自动驾驶任务中,场景地图的紧凑性和准确性是两个至关重要的特征。因此,自2010年末首次出现以来,自动驾驶领域最广泛使用的地图是HD Map。通常,HD Map是由搭载高精度传感器(包括激光雷达、RTK和IMU)的移动建图系统创建的,精度可达厘米级。HD地图中的定位特征包括密集的点云和稀疏的地图元素。我们关注通常表示为带有语义标签的矢量的稀疏地图元素。这些元素对应于现实世界中的道路元素或标志,例如照明杆、道路标记和车道线。这种基于语义元素的地图表示比其他场景地图(如点云地图和视觉地标地图)更轻便,同时携带了高度详细的道路元素。具有HD地图的MRL(HD-MRL)被认为是批量生产车辆的有效解决方案,HD-MRL方法的基本公式包括从图像中识别HD地图的语义元素,然后通过将图像中检测到的2D元素与HD地图中相应的3D元素对齐来估计姿势。
图13: 带有矢量化HD地图的MRL方法示意图
HD地图应该是最紧凑且轻量级的场景地图,因此被自动驾驶研究所青睐。尽管它需要高昂的构建和维护成本,但最近提出的众包地图构建和更新策略可能有助于降低维护成本,使HD地图更广泛地被接受。在HD地图中进行MRL仍然是一个非常困难的问题,因为在视觉观测和HD地图中的语义元素之间进行精确的数据关联在理论上是困难的。传统方法寻求借助多传感器融合或在线测程法的帮助,而最近的基于学习的方法则利用了DNN模型先进的表示能力。基于定位性能和所需的传感器设置,我们认为基于学习的方法是HD-MRL更有前途的方式。
图14: HD地图与图像语义分割之间对齐的示例。(a) 精确对齐; (b)-(g) 在自由度扰动下的对齐结果: 滚动、俯仰、偏航、x、y 和 z。语义分割: 自由空间 (黄色)、车道标线 (橙色和紫色)。从HD地图投影: 车道标线 (绿色) 和路牌 (青色)。
基于学习的隐式地图
在当前深度学习时代,学者们开始以更加隐式的方式重新思考场景地图的表示格式。一些最近提出的作品将场景地图编码到神经网络中,使网络可以实现一些惊人的功能,比如直接恢复图像的姿势(称为绝对姿势回归,APR)、估计图像中每个像素的3D坐标(称为场景坐标回归,SCR)或呈现场景的几何结构和外观(称为神经辐射场,NeRF)。由于高性能计算设备、成熟的深度学习技术和庞大的训练样本数量,这种隐式地图可能是未来MRL方法(称为NN-MRL)的新选择。这里回顾了基于APR、SCR和NeRF的MRL方法,如图15所示。
图15: 具有隐式地图的MRL方法的示意图,例如a) APR方法,b) SCR方法,以及c)和d)基于NeRF的方法
作为一种新兴技术,NeRF具有两个有利特征:1) 场景的隐式表示;2) 在新的视点渲染合成图像的能力。这两个特征在MRL研究中展现了巨大的潜力。当前在这一领域的尝试主要集中在将NeRF与APR方法结合使用。在NeRF的辅助下,APR在小型和中型场景中的表现可以与甚至优于VL-MRL方法。但我们必须说,在MRL中利用NeRF仍然是一个待探讨的开放性问题。
图16: NeRF增强的APR方法实例,a) 使用查询图像和渲染图像之间的光度一致性的Direct-PoseNet,b) 使用查询图像和渲染图像之间特征一致性的DFNet。
实验
在室外Cambridge Landmarks 和室内7Scenes 上比较了许多具有各种场景地图的MRL方法,如表8和表9所列。
NeRF姿态估计器 > I2P-MRL > SCR > APR+NeRF ≈ VL-MRL > RPR > APR > VPR。
NeRF姿态估计器 ≈ I2P-MRL ≈ SCR ≈ APR+NeRF ≈ VL-MRL > RPR > APR > VPR。
可以看出,在小尺度室内场景中,尽管APR和RPR的表现不如其他MRL方法,它们仍然可以实现令人满意的定位性能。鉴于APR和RPR对于构建地图的低要求,它们可以用于一些不需要高精度定位的应用,如虚拟现实(VR)。VPR仅检索视觉上相似的参考图像,并将参考姿势视为查询姿势的近似姿势,因此在室外场景中,当参考图像很少时,其定位精度非常有限。在室内场景中,大多数具有各种场景地图的MRL方法实现了可比较的定位性能。但在室外场景中,不同方法之间的差距更为显著。像NeRF-Loc、I2P-MRL、SCR和APR+NeRF这样将NeRF用作姿态估计器的方式似乎是MRL研究中具有前景的方法。将基于NeRF的定位适应到大规模无界场景中,减少I2P-MRL对高精度点云地图的要求,降低SCR的训练成本应该被探索,以使这些MRL方法更实用。
未来视觉定位的趋势
总结
在这项研究中将MRL方法定义为一种交互过程,涉及查询图像和场景地图之间的相互作用,通过该过程估计姿态。接着系统地审查了基于所使用的场景地图表示格式的MRL方法。具体而言涵盖了使用地理标记帧地图、视觉地标地图、点云地图、高精地图以及最近提出的学习隐式地图的MRL方法。我们对每种MRL方法及其相关组件进行了全面审查。此外回顾了MRL方法的评估,并根据典型算法的评估结果得出了一些结论。我们提出了该领域的一些未解问题,并陈述了我们的个人观点。最后作为对学术社区的持续贡献,在网站上列出了已审查的论文和数据集,以方便研究人员根据他们的兴趣找到最匹配的MRL方法。