提升90%！利用结构线索增强视觉场景识别(VPR)能力

好好学SLAM

发布于 2021-05-28 15:57:08

8990

发布于 2021-05-28 15:57:08

文章被收录于专栏：计算机视觉SLAM情报站

标题：Augmenting Visual Place Recognition with Structural Cues

作者：Amadeus Oertel, Titus Cieslewski, Davide Scaramuzza

来源：RA-L and IROS, 2020.

主页：http://rpg.ifi.uzh.ch/research_vo.html

编译：realcat

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权，后台回复[AVPR]，获取本文链接。

(source: youtu.be/OWzBH3d7M_k)

摘要

在这项工作中，本文提出用结构线索来增强基于图像的地点/场景识别能力。具体来说，这些结构线索是利用SfM的方式获得的，这样就不需要额外的传感器来进行场景识别。这是通过增强用于图像的位置识别的2D卷积神经网络（CNN）和3D CNN来实现的，其中3D CNN将从SfM点云中获得的体素网格作为输入。本文评估了不同特征融合的方式，最终通过全局平均池化和简单串联获得了最佳性能。与仅从一种输入模态中提取的描述子（包括最先进的基于图像的描述子）相比，所得到的描述子表现出优越的识别性能。特别是在低描述子维度的情况下，本文算法的性能比目前最好的描述子高达90%！

贡献

本文首次提出学习型复合描述子，将外观和结构都纳入视觉场景识别任务；且性能比单一描述子有比较明显的提升；
结构信息的获取并不依赖于额外的传感器，仅由视觉图像作为输入即可；

算法框架

上图是本文提出的算法框架，可以看出本文提出的网络由两个子网络构成：基于外观的特征提取网络以及基于机构的特征提取网络。网络的输入是一张图像以及对应的体素网格，分别经过上述两个子网络并经过全局池化分别得到对应的描述子，紧接着将这两个描述子以及串联起来，最后通过两个全连接层得到最终的全局描述子，该描述子就是所谓的外观+结构描述子。

上面描述中作为输入的图像是显而易见的，但体素是怎么来的呢？作者提到，由于本算法不依赖于除相机之外的其它传感器，本文实际中使用的是半稠密的双目Direct Sparse Odometry (DSO)[1]进行位姿追踪及建图。

给定一个图像序列的三维重建模型，可以为每帧图像生成一个体素网格。一个点云submap是从以相机姿势为中心的矩形框中提取出来的画面。每个submap是与世界系的z轴对准的，可使用惯性测量单元（IMU）与对应摄像机姿势的偏航方向来实现。本文提到，上述矩形框的大小需要根据其使用环境进行调整。一个submap包含DSO在位于矩形框边界内的一组前个关键帧（以与该submap关联的帧结束）上观察到的所有地图点。下一步，submap需要被分解成规则的体素网格，本文采用的是二值占据(binary occupancy)的方式进行离散化（后续有实验证明）：一个voxel若有点则其被赋值为1，否则为0。

实验结果

体素离散化方法

上表比较了不同体素离散化方法，其中表示最近的一个召回帧是正确匹配的比例，表示训练网络设置的卷积深度，经比较二值占据(binary occupancy)的方式进行离散化性能最优。

特征融合方式

上表比较了不同特征融合的方法：即比较将外观全局描述以及结构结合的方式，经比较直接串联的方式最优。

与其它算法对比

此处对比了目前主流的VPR算法，包括SeqSLAM[2], DenseVLAD[3], NetVLAD[4]以及 Multi-Process Fusion[5]。

上图比较NetVLAD与本文提出的算法在特征维度变化时的召回率。当减少时，NetVLAD的性能下降得严重。而我们的复合描述子与NetVLAD在=64时相比，mAP的相对增益高达90.5%，召回率@1增益为23.6%。

上表展示了复合描述子的性能最优，视觉效果如下：

耗时统计

上表展示了在NVIDIA TITAN XP平台下处理一张图像的耗时，本文算法耗时最少。

Abstract

Abstract—In this paper, we propose to augment image-based place recognition with structural cues. Specifically, these structural cues are obtained using structure-from-motion, such that no additional sensors are needed for place recognition. This is achieved by augmenting the 2D convolutional neural network (CNN) typically used for image-based place recognition with a 3D CNN that takes as input a voxel grid derived from the structure-from-motion point cloud. We evaluate different methods for fusing the 2D and 3D features and obtain best performance with global average pooling and simple concatenation. On the Oxford RobotCar dataset, the resulting descriptor exhibits superior recognition performance compared to descriptors extracted from only one of the input modalities, including state-of-the-art image-based descriptors. Especially at low descriptor dimensionalities, we outperform state-of-the-art descriptors by up to 90%.

——END——