基于语义的视觉定位

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Semantic Visual Localization

作者:Johannes L. Scho ̈nberger,Marc Pollefeys,Andreas Geiger,Torsten Sattler

来源:Computer Vision and Pattern Recognition(CVPR2018)

编译:刘小亮

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

泡泡图灵智库栏目,是泡泡一分钟的深入解读版,添加了论文的主要贡献、算法流程和主要结果分析等内容,希望给泡芙们带来全新的感受。

摘要

大家好,今天为大家带来的文章是——基于语义的视觉定位,该文章发表于CVPR2018。

在大范围观测条件下的鲁棒性视觉定位是计算机视觉中一个基本的问题。处理这些问题中的各个困难不仅具有很大的挑战,而且也是和实际高度相关的,比如增强现实和自动机器人长时定位(life-long localization)。在这篇文章中,我们提出了一个新的方法-基于联合3D几何特征和语义理解,使其能够成功解决先前方法未能解决的一些情况。我们的方法提供了一个新的特征描述符学习的生成模型,并训练语义场景完备化(semantic scene completion)作为辅助任务。通过编码高级的3D几何特征描述符和语义信息,使得所得的3D描述符在面对丢失观测时也是鲁棒的。最后实验在几个具有挑战性的大场景定位数据集上进行,表现出在于极端的视角,照明和几何变化下也是可靠的。

图1:本文提出语义定位技术,它能够横跨视角和时间,对其在极端变化下进行特征匹配。在上图例子中,数据库仅包含在夏季和从一个特定视角拍摄的图片,然而,本文的方法可以准确的定位到具有极端的视角,光照和季节变化的图片

主要贡献

1. 本文提出一种基于3D几何和语义信息视觉定位的新方法;

2. 基于3D语义场景结果的生成模型,本文制定了描述符学习问题的一种新方法。其中,本文把变分编码解码模型(variational encoder-decoder)的潜在空间作为本文的描述符,并获得高级的几何和语义信息。

3. 本文验证了,在下列两个具有挑战性问题本文方法的有效性:准确的估计相机位姿在于极端的视角变化(1),与照明/季节变化(2)。

算法流程

1.在离线(offline)步骤上,本文通过利用语义场景完备化作为辅助任务,学习出鲁棒的局部描述符。

2.在线(online)操作期间,本文使用这些局部描述符去来建立查询(the query)和数据库映射(database map)之间的3D-3D的匹配。

3.最后,通过这些匹配对,再用于俩俩映射中位姿估计与矫正。

图2:变分编码解码器结构图,CP=卷积+池化,FC=全连接层,RC=重塑+卷积,UC=上采样+卷积,∆KL=KL散度,∆R=重建损失度。每个块右下角的数字表示特征通道的数量。整个网络,输入为不完整的语义观测(左边),输出为预测的完备语义子体块(右边)。其中潜在的代码μ用于构成本文的描述器

主要结果

1.实验环境:KITTI和NCLT数据集,其中KITTI主要用于视角的实验,NCLT主要用于光照/天气变化的实验

图3:KITTI和NCLT数据集下不同闭环场景的示例图,包括两个失败的例子--由于局部和全局的模糊

2.实验对比结果:本文主要从极端的视角和光照/天气场景做了实验,验证本文方法的在解决这两个困难情况下视觉定位的优越

图4:定位比较结果,实验在KITTI(上面图)和NCLT(下面图)数据集上的cross-viewpoint (0, 90, 180)和cross-time(部分多云正午,晴天早上,晴天晚上,多云下午)的部分场景。值越大越好

Abstract

Robust visual localization under a wide range of viewing conditions is a fundamental problem in computer vision. Handling the difficult cases of this problem is notonly very challenging but also of high practical relevance,e.g., in the context of life-long localization for augmentedreality or autonomous robots. In this paper, we propose anovel approach based on a joint 3D geometric and semantic understanding of the world, enabling it to succeed underconditions where previous approaches failed. Our methodleverages a novel generative model for descriptor learning,trained on semantic scene completion as an auxiliary task.The resulting 3D descriptors are robust to missing observa-tions by encoding high-level 3D geometric and semantic in-formation. Experiments on several challenging large-scalelocalization datasets demonstrate reliable localization under extreme viewpoint, illumination, and geometry changes.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180518A06D2J00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券