InLoc:基于稠密匹配和视图合成的室内视觉定位

泡泡图灵智库,带你精读机器人顶级会议文章

标题:InLoc: Indoor Visual Localization with Dense Matching and View Synthesis

作者:Hajime Taira,Masatoshi Okutomi ,et al.

来源:IEEE Conference on Computer Vision and Pattern Recognition CVPR(2018)

播音员:堃堃

编译:张国强

审核:刘彤宇

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是——InLoc:基于稠密匹配和视图合成的室内视觉定位,该文章发表于CVPR2018。

我们试图预测查询照片相对于大型室内3D地图的6自由度(6DoF)位姿。这项工作的贡献有三点。首先,我们开发一种针对室内环境的新型大规模视觉定位方法。该方法分为三个步骤:(i)有效地检索候选位姿,确保大规模环境的可扩展性,(ii)对于位姿估计,使用稠密匹配而不是局部特征来处理无纹理的室内场景,(iii)通过虚拟视图合成来应对视点,场景布局和遮挡物的显著变化。其次,我们收集一个新的参考6DoF姿态的数据集用于大规模室内定位。查询照片采用不同于参考3D地图的时间由手机拍摄,因此呈现出真实的室内定位场景。第三,我们证明我们的方法在这个新的具有挑战性的数据集上显著优于当前最先进的室内定位方法。

主要贡献

1. 开发一种针对室内环境的新型大型视觉定位方法。该方法进行三个步骤:(i)有效地检索候选位姿,确保大规模环境的可扩展性,(ii)使用稠密匹配而不是局部特征来处理无纹理的室内场景,(iii)通过虚拟视图视图来应对视点,场景布局和遮挡物的显著变化。

2. 我们收集一个新的参考6DoF姿态的数据集用于大规模室内定位。查询照片采用不同于参考3D地图的时间由手机拍摄,因此呈现出真实的室内定位场景。

图1 大范围室内定位

3. 本文证明该的方法在这个新的具有挑战性的数据集上显著优于当前最先进的室内定位方法。

相关工作

图2. InLoc数据集统计及样图

本文的数据集由RGBD图像数据库组成,这些图像以几何方式记录在地图上,增加了由手持设备拍摄的一组单独的RGB查询图像,使其适用于室内定位任务提供的查询图像在3D地图的全局坐标系中用手动验证的地面真实6DoF相机姿态(参考姿势)进行注释。

图3

已验证的查询姿势的示例

本文评估了参考摄像机的视觉质量和定量质量。红点是使用其估计位姿投影到查询图像上的数据库3D点。

本文提出了一种大规模室内视觉定位的新方法。

主要解决了室内环境的三大挑战:

(1) 缺乏稀疏的局部特征。

(2) 图像大幅度的变化。

(3) 自适应性。

实验对比

实验结果:

1. 在候选位姿检索步骤中,我们使用NetVLAD检索100个候选数据库图像。 我们使用作者提供的实现和预先训练好的Pitts30K VGG-16 模型生成4096维的NetVLAD描述符向量。

图4 定性比较不同的本地化方法(列)。

2.在第二个位姿估计步骤中,我们通过以粗到细的方式匹配稠密提取的卷积特征来获得暂定的对应关系:我们首先在conv5特征中找到相互最近的匹配,然后与较细的conv5对应。

3.在最终的位姿确认步骤中,在考虑自遮挡问题的同时,我们通过渲染彩色3D点来生成合成视图。

图5 与InLoc数据集中的最新定位方法进行比较

我们在给定距离阈值和10°角度误差阈值内显示正确定位查询的速率。

图6 不同组件的影响

上图显示了稠密匹配(DensePE)和稠密集姿态验证(DensePV)对(a) NetVLAD检索的姿势候选和(b) 最先进的基线的姿势估计质量的影响。 绘图显示正确定位的查询(y轴)在一定距离(x轴)内的旋转误差最大为10°的分数。

Abstract

We seek to predict the 6 degree-of-freedom (6DoF) pose ofa query photograph with respect to a large indoor 3D map.The contributions of this work are three-fold. First, wedevelop a new large-scale visual localization method targetedfor indoor environments. The method proceeds alongthree steps: (i) efficient retrieval of candidate poses that ensuresscalability to large-scale environments, (ii) pose estimationusing dense matching rather than local features to deal with textureless indoor scenes, and (iii) pose verificationby virtual view synthesis to cope with significantchanges in viewpoint, scene layout, and occluders. Second,we collect a new dataset with reference 6DoF posesfor large-scale indoor localization. Query photographs arecaptured by mobile phones at a different time than the reference3D map, thus presenting a realistic indoor localizationscenario. Third, we demonstrate that our method significantlyoutperforms current state-of-the-art indoor localizationapproaches on this new challenging data.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180613A071JW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励