首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文| A Survey on Deep Visual Place Recognition

别看了,这篇文章内容冗长,性价比一般!

2021-A Survey on Deep Visual Place Recognition

发表期刊/会议: IEEE Access

2023 IF/JCR: 3.9/Q2

中科院分区: Q3

发表时间: 2021

参考引用: Masone C, Caputo B. A survey on deep visual place recognition[J]. IEEE Access, 2021, 9: 19516-19547.论文机构: 意大利技术研究院;意大利都灵理工大学

重要程度: ★☆☆☆☆;冗长!

更新时间: 20231201

目录

ABSTRACT

I. INTRODUCTION

II. VPR手工特征表示

A. 局部描述子

B. 全局描述子

Ⅲ. VPR深度学习表示

A. 全连接表示

B. 卷积表示

1. 特征聚合

2. 特征池化

IV. DIMENSIONALITY REDUCTION AND WHITENING

V. 地点识别如何从数据中学习

A. 以分类为学习目标

B. 以排序为学习目标—度量学习metric learning

C. LISTWISE RANKING

D. 从专家知识学习

Ⅵ. 相似性搜索

Ⅶ. 检索优化

A. 空间(几何)验证Spatial (geometric) verification

1. 稀疏局部描述符的启发式提取

2. 使用单独模型提取稀疏局部描述符

3. 提取图像表示和稀疏局部描述符的混合模型

B. 非几何重排序NON-GEOMETRIC RE-RANKING

C. 查询扩展QUERY EXPANSION

D. DIFFUSION

Ⅷ. VPR中的挑战性条件及其应对方法

A. SELECTING WHERE TO LOOK

1. REGION SELECTION

2. 注意力模块和加权掩码

B. VIRTUAL VIEWS AND WARPING

C. 语义信息

D. 深度信息

E. 适应不同的环境条件

F. 使用3D模型

Ⅸ. 利用航拍图像进行视觉地点识别

A. 遥感

B. 跨视图地理定位

C. 微型空中机器人

Ⅹ. 机器人应用中的视觉位置识别

A. MAPS

B. 连续地点识别和定位

1. 随机模型

2. 相似度矩阵

3. 序列表示

4. 受生物学启发的方法

C. 多任务架构

ⅩⅠ. 视觉地理定位视作分类任务

ⅩⅡ. 数据集和评价指标

数据集

评价指标

ⅩⅢ. 讨论和未来的研究方向

讨论

1. 图像表示

2. 后处理

3. VPR不仅仅是图像检索问题

4. 机器人中的VPR问题

5. 视为分类问题

未来的研究方向

ABSTRACT

首先讨论VPR中使用的图像表示以及它们如何从使用手工制作的特征演变为深度学习的特征。

进一步回顾了如何使用度量学习技术(metric learning techniques)来获得更具辨别力的图像表示,以及处理图像视觉域中的遮挡、干扰和变化的技术

概述了为机器人技术和航空图像应用提出的具体解决方案。

最后,总结了用于VPR的数据集,突出了它们的不同特征。

I. INTRODUCTION

VPR检索过程通常分为三个阶段实现。

编码过程从每个图像中提取其内容的向量表示(图像表示)。

相似性搜索根据评分函数(例如欧几里得距离或余弦相似度)在查询的表示和数据库中的每个图像的表示之间进行成对比较,并返回最佳匹配。

后处理阶段优化相似性搜索产生的结果。

II. VPR手工特征表示

本节简要回顾了 CNN 出现之前用于此任务的手工特征表示。

A. 局部描述子

局部特征描述符仅分析图像的一个patch,突出显示与其邻域不同的模式。

Hessian-Affine detector、MSER、SIFT、SURF、RootSIFT、BRIEF、DSP-SIFT、kernel descriptors

B. 全局描述子

HOG、Gist。

与局部描述符的表示相比,全局描述符对视角变化、混乱和遮挡的鲁棒性较差。

Ⅲ. VPR深度学习表示

A. 全连接表示

FC 层提取的信息类似于全局描述符:它对于干扰物或遮挡的存在并不鲁棒,并且缺乏平移和尺度的不变性。FC 特征表示受到固定输入大小和需要大量参数的限制。

B. 卷积表示

简单地展平卷积层的特征图并不能充分利用其中包含的空间信息。这种考虑指导了当前最先进的地点检索表示的发展。这些方法可以分为两大类:

使用源自手工制作的局部描述符表示的方法聚合卷积特征;

总结卷积特征的池化方法。

1. 特征聚合

卷积层的输出可以被认为是一组密集提取的局部描述符,这些密集描述符可以聚合在单个向量表示中,然后使用相似性函数进行比较。

VLAD, BoW, ASMK

2. 特征池化

可以通过总结卷积特征的统计量来生成图像表示。

max-pooling

sum-pooling

average pooling

hybrid pooling

Regional Maximum Activations of Convolutions (R-MAC)

generalized-mean aggregation layer (GeM)

IV. DIMENSIONALITY REDUCTION AND WHITENING

V. 地点识别如何从数据中学习

第三节介绍了 VPR 中使用的基于 CNN 特征表示,但仅从架构的角度来看。然而,除了用于构建这些表示的聚合或池化方法之外,它们的有效性还取决于它们如何从数据中学习。本节讨论用于训练 CNN 作为 VPR 表示生成器的方法。

A. 以分类为学习目标

B. 以排序为学习目标—度量学习metric learning

基于一定的距离函数,学习能够很好地表示相似性的图像描述符。VPR 中大多数的研究通过训练 CNN生成图像特征表示,一般使用的ranking losses有contrastive loss——使用孪生网络(siamese network)配置或者triplet loss——使用三元网络(triplet network)配置。通过ranking losses进行表示学习需要为每个训练图像选择正例和负例。

关键问题:如何选择正例样本和负例样本。

C. LISTWISE RANKING

尽管contrastive loss和triplet loss是 VPR 中用于学习图像表示的最流行方法,但它们都有两个局限性。第一个限制是实用性:mining examples的过程会给训练增加很大的开销,如果示例选择不当,甚至可能导致糟糕的结果。第二个限制是理论上的:这些损失已被证明具有平均精度 (mean average precision, mAP) 的上界。因此,优化这些ranking losses并不能保证也能优化 mAP。

图像检索实验表明,使用listwise loss进行学习始终优于使用contrastive or triplet loss获得的结果,甚至优于执行多尺度分析的方法。

D. 从专家知识学习

Learning to rank可以直接训练网络来执行检索任务,但这个过程可能很长且成本高昂。

如果已经训练了这样一个网络,则可以使用知识蒸馏来训练学生网络。

Ⅵ. 相似性搜索

检索过程的第二步是 k 最近邻搜索 (kNN),即查找最接近查询图像的 k 个数据库实例。

Ⅶ. 检索优化

本节回顾了几种可用于通过重新排序(re-ranking)甚至扩大候选名单来提高精确度和召回率的方法。

A. 空间(几何)验证Spatial (geometric) verification

该方法的要点是首先检测一对图像之间的特征到特征的对应关系,然后通过分析它们之间空间变换的一致性来验证其可靠性。该分析的结果将用于对候选匹配结果进行重新排序。

虽然空间验证通常用于优化阶段,但同样的原理也可以用作在配置地点检索pipeline之前清除数据库中的标签噪声的过程。

空间验证通常使用基于模型的方法来实现,例如 RANSAC或 PROSAC,以生成基于特征到特征对应关系的变换假设,这些变换假设通常通过施加不同类型的约束来裁剪,例如几何或语义。每个假设都根据该假设下所有特征中“内点”的数量进行评估,然后可以将其用作重新排名的分数。

空间验证方法使用稀疏局部描述符来检测对应关系并检查图像之间的一致性。

如何提取局部描述符?

1. 稀疏局部描述符的启发式提取

这些方法旨在简单和高效,试图提取空间局部描述符,而不需要为此任务重新训练模型,也不需要第二个模型。

方法一基于以下观点:CNN 卷积层的特征图可以解释为局部特征描述符的密集网格,但这些描述符可以以从粗到细的方式进行匹配以稀疏化它们。

为此,作者首先基于第五个卷积层 (conv5) 的特征进行粗匹配,在此基础上,基于第三个卷积层 (conv3) 进行精细匹配。

另一种解决方案是通过选择卷积特征图的高激活值,从第一阶段使用的 CNN 中提取稀疏局部描述符。该方法基于这样的观察:卷积层的输出可以解释为模式检测器的二维响应图的集合。因此,高激活的选择可以被视为选择具有最高置信度检测的局部特征。

2. 使用单独模型提取稀疏局部描述符

这一系列方法旨在使用单独模型提取稀疏局部描述符。基于以下观点:CNN 卷积层的特征图可以解释为局部特征描述符的密集网格,因为它们缺少用于手工制作的局部描述符的检测步骤。

比如DELF模型。

3. 提取图像表示和稀疏局部描述符的混合模型

使用两种专用模型,一种用于生成图像表示,另一种用于提取局部描述符,这与许多应用中出现的有限资源和对效率的需求发生冲突。

因此,一些研究人员研究了混合解决方案,将全局描述符(用于相似性比较)和局部描述符(用于空间验证)的计算结合到具有多头的单个 CNN 中。

比如DELG模型。其中局部和全局特征是从具有两个头的主干中提取的:

GeM 池化产生全局表示;

受 DELF启发的注意力模块,用于生成局部描述符。

为了同时训练这两个任务,作者利用了 CNN 中的分层表示的概念:全局特征与编码高级线索的深层网络相关,而局部特征与中层相关,编码更多的局部信息。

B. 非几何重排序NON-GEOMETRIC RE-RANKING

C. 查询扩展QUERY EXPANSION

查询扩展是使用入围图像作为反馈来生成丰富的表示,然后重新提交以通过数据库进行新的搜索。该解决方案可以通过检索第一次搜索时未选择的相关图像来显著提高召回率。然而,它要求初始候选者足够可靠和准确,因此它受益于事先的验证步骤。此外,相关图像很少的查询在查询扩展后可能会出现性能下降。

Average Query Expansion (AQE):将丰富的表示创建为高排名结果的平均值。

Discriminative Query Expansion (DQE):使用排名最高和最低的结果作为正例和负例来训练线性 SVM。

Hamming Query Expansion:重新审视查询扩展,使其与Hamming Embedding兼容。

α-weighted query expansion (αQE):使用加权平均值的 AQE 的推广,即每个检索到的最前面的结果都通过其相似性分数的可调标量参数次方来加权。

D. DIFFUSION

相似性搜索的局限性之一是成对公式忽略了数据流形(data manifold)的结构。相反,可以沿着数据流形上的测地线路径(geodesic path)更准确地估计相似性。即使查询扩展(已被证明可以提高检索性能)也仅使用根据成对相似度值选择的最近邻居来发出新查询。

与这些方法相反,扩散是一种利用数据库所有元素之间的上下文相似性来揭示数据流形的技术,并使用此信息以有原则的方式执行搜索。

这里的流形被解释为加权图,其中每个实例由一个节点表示,边上的权重是连接节点之间的成对相似性度量。然后,扩散过程遵循随机游走的概念,在整个图中传播排名分数。

面临的困难:

计算代价大,占用时间长。

扩散过程假设查询是图(即数据库)的一部分,而视觉地点识别中的情况并非如此。

经典扩散方法的基本思想是揭示流形结构以更好地指导相似性搜索。随着图卷积网络(graph convolutional networks, GCN)的使用,这个想法被重新审视。GCN 可用于将 kNN 图的信息直接编码到用于相似性搜索的图像描述符中。这会生成对高阶邻居信息进行编码的新描述符。

Ⅷ. VPR中的挑战性条件及其应对方法

A. SELECTING WHERE TO LOOK

应对视觉混乱和干扰因素的问题,视觉检查pipeline专注于图像中信息最丰富的部分,并避免那些可能引起混乱的元素。

1. REGION SELECTION

处理混乱和视觉干扰的方法是从图像中提取感兴趣的区域。

2. 注意力模块和加权掩码

注意力模块是一种从图像中选择更相关信息的方法,可以显著提高地点检索的性能。

与区域提议(region proposal)方法有效地提取图像中被认为有趣的部分不同,而注意力模块将图像作为一个整体进行处理,但各个特征根据相关性标准进行加权。

B. VIRTUAL VIEWS AND WARPING

View synthesis:查询或数据库图像被显示相同场景但从不同视点的人工视图替换或增强。

Warping:用于跨视图定位的情况,其中查询是街道级图像并且数据库由航空图像组成,反之亦然。

C. 语义信息

语义信息可用于提取最丰富和最有辨识力的视觉元素,从而为干扰因素和不断变化的条件提供更强的鲁棒性。

D. 深度信息

E. 适应不同的环境条件F. 使用3D模型Ⅸ. 利用航拍图像进行视觉地点识别 A. 遥感B. 跨视图地理定位

查询是从街道级别获取的,而数据库中的图像是鸟瞰图(反之亦然)。

C. 微型空中机器人

空中机器人运动中常见的大横滚-俯仰旋转会导致剧烈的视角变化。

Ⅹ. 机器人应用中的视觉位置识别

A. MAPS

主要问题是,当机器人导航时,如何有效地构建和扩展地图。

B. 连续地点识别和定位

1. 随机模型

随机模型用于生成关于机器人捕获的当前观察(图像)相对于已知地图的位置的置信分布。

2. 相似度矩阵3. 序列表示

查询序列中的图像也可以一次全部处理以创建隐式包含帧之间的时间信息的组合表示,以和其他的序列匹配。

4. 受生物学启发的方法C. 多任务架构

视觉地点识别只是机器人在导航时需要执行的多项任务之一。在这种情况下,可以通过利用其他相关任务提取的信息来提高地点识别的性能,反之亦然。

ⅩⅠ. 视觉地理定位视作分类任务

将VPR看作分类任务,分类任务本身可以预测图像的位置,而无需任何检索。

ⅩⅡ. 数据集和评价指标

数据集

评价指标

accuracy or recall

mean average precision (mAP)

mean average precision (mAP@N)

μAP

area under curve (AUC)

ⅩⅢ. 讨论和未来的研究方向

讨论

1. 图像表示

用什么表示?

CNN:从架构的角度来看,聚合和池化方案都取得了优异的结果,但最近的研究倾向于池化方案。

如何训练表示生成器?

contrastive or triplet metric learning losses: 在大规模数据集时,mining step会带来计算的复杂性。

listwise loss: 没有mining环节

2. 后处理

diffusion techniques

deep learning

3. VPR不仅仅是图像检索问题

图像显著区域的选择对于位置识别尤为重要,不仅有助于消除遮挡和干扰,还有助于识别跨季节最稳定的元素。在这些方法中,注意力图脱颖而出,不仅因为它们不需要单独的监督训练,而且因为它们允许调节对不同元素的关注程度。

通过利用语义和几何信息,可以大大提高基于外观的地点识别。

视点的变化会极大地影响地点的识别,但是在检索pipeline中集成视图合成或warping技术可以缓解这个问题。

4. 机器人中的VPR问题

具有时间和拓扑信息。

5. 视为分类问题未来的研究方向:

可扩展性:大规模数据集问题

长期可靠性(自主性)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OEJP8SB6IJHgNkvHxk9KLN0g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券