Hi大家好,我是 Realcat,今天给大家分享的是 CVPR 2021 图像匹配挑战赛研讨会的内容摘要。
2021年6月25日(晚),CVPR 2021图像匹配研讨会(简称IMW 2021)在线上成功举行。研讨会直播总时长4个多小时,由于时差原因,笔者当晚仅看了前一个小时,困得实在不行了,又次日看了回播,随后的几天晚上陆续对整个研讨会整理了一下。
去年(2020年5月17日)我对IMW 2020 进行了介绍(详见这篇文章),当时涌现了诸如SuperPoint
+
SuperGlue
+ DEGENSAC
以及SuperPoint + GIFT + Graph Motion Coherence Network + DEGENSAC
令人振奋的算法。那今年相比于去年又有什么改变呢?接下来的时间,且跟我一起回顾这次研讨会。
本文较长,建议分享/收藏。后台回复“IMW2021”获得该研讨会PPT。
下图是本次IMW 2021的时间表,上午是两位大佬带来的主题演讲以及两篇workshop papers,下午对挑战赛规则以及获奖算法进行介绍。
笔者将这次大会的全部视频搬运到了B站,感兴趣的同学欢迎一键三连。
ETHZ RPG实验室[7]的带头人 Davide Scaramuzza[4] 教授带来了关于事件相机原理以及应用方面的主题演讲(大致看了下Slides,基本上与CVPR 2019讲的内容差别不大)。Davide教授在事件相机研究方面做了大量工作,但由于时间有限,Davide教授仅介绍了约50min。但是值得注意的是,RPG实验室在另外一个会场组织了"CVPR 2021 Workshop on Event-based Vision"[6],这个研讨会召集了事件视觉方向的研究学者,非常详尽地介绍了基于事件视觉的最新进展,感兴趣的同学可以关注下这个主题。
2.2 Image matching and SfM: Classical, recent results and privacy (Prof. Marc Pollefeys -- ETH Zurich, Microsoft)
来自ETHZ CVG 实验室[9]的 Marc Pollefeys [8] 教授简短地介绍了有关图像特征匹配以及SFM的经典方法,然后介绍了他们团队最近在SFM方向有关隐私保护的相关工作。
首先 Marc 展示了他们团队多年前(2004年)做过的一项有意思的工作:从视频恢复3D模型。从展示效果上看已经很不错, 但从现在来看,这项工作还有很大的局限性,其中最大的局限性就是feature detectors。对于视频序列的帧间追踪可以用KLT,若对于非专业人员采集的图像序列,就需要对其采集过程进行约束(否则使用当年性能较弱的特征提取器+描述子难以应对较大的帧间运动)。
直到出现了SIFT情况才得到改善,做CV的应该都比较熟悉该特征具有良好的尺度不变性,能够应对一定程度的大视角匹配问题,这也使得它目前仍然应用于多个SFM框架,如COLMAP, openMVG等。
随后提到了基于深度学习的特征提取器+描述子D2-NET[20]等。紧接着是SOLD2[21],一种线段提取器+描述子,具体方法很大程度上借鉴了SuperPoint[22]。它能够在如下场景提取相比点特征更多的线特征。
接下来又讲解了Pixloc[23],作者是SuperGlue的一作Paul-Edouard Sarlin[24],即给定查询帧+初始粗糙的位姿以及局部地图,使用Pixloc即可优化获得其精确位姿。
之前介绍了在SFM以及视觉定位方面的相关工作, Marc 教授接下来介绍了 "Privacy-Preserving Localization/Mapping" 相关工作。
首先是基于线段特征隐私保护的定位与建图[25],这项工作发表于ECCV 2020。
最后介绍了他们团队发表在CVPR 2021上的工作,"Privacy-Preserving Image Features"[26]。
摘要:单应估计是许多计算机视觉任务中不可缺少的一步。然而,现有的方法对光照和/或较大的视点变化不鲁棒。本文提出了双向隐式单应估计(biHomE)损失的进行无监督单应估计。biHomE使原视点的扭曲图像和目标视点的对应图像在特征空间中的距离最小化。本文使用了一个固定的预先训练的特征抽取器,本框架中唯一可学习的部分是单应网络,因此本框架有效地将单应估计与表示学习解耦。本文在合成COCO数据集生成中使用了额外的光度失真步骤,以更好地表示真实场景的照明变化。本文证明了biHomE在合成COCO数据集上达到了最先进的性能,这与有监督的方法相比也是相当或更好的。此外,与现有方法相比,实验结果证明了该方法对光照变化的鲁棒性。
paper: arxiv.org/abs/2104.10011
摘要:本文提出了一种新型的图像匹配方法,它利用现成的(off-the-shelf,即预训练好的)深度神经网络提取的特征点,获得了不错的性能。本文方法使用预训练的VGG架构网络作为特征提取器,不需要任何额外的训练以改善匹配。受认知心理学领域成熟的概念启发,如心理旋转(Mental Rotation)范式,估计初步的几何变换并对图像进行初步对齐。这些估计是基于待匹配图像的VGG网络最终输出层的最近邻的密集匹配得到。在这个初步对齐之后,同样的方法在参考图像和对齐图像之间以分级的方式(hierarchical manner)再次重复,以达到良好的定位和匹配性能。在Hpatches数据集上,我们的算法在1个像素和2个像素的阈值上分别达到了0.57和0.80的平均匹配精度(MMA),这个结果比目前最先进的匹配器性能更优。
目前算法已开源。
code: github.com/ufukefe/DFM
paper: arxiv.org/abs/2106.07791
研讨会组织者之一的Kwang Moo Yi[13]再次(因为2019,2020年已经介绍了)介绍图像匹配挑战赛是什么以及比赛规则等(此处略过)。
本次挑战赛共有三个数据集:Phototourism ,GoogleUrban 以及PragueParks,其中第一个数据集与2020年相同;后面两个是本次研讨会新增的。研讨会组织者之一的Eduar Trulls[14]对前两个数据集(城市场景)进行介绍。
4.3 PragueParks Dataset & Challenge Results (Dmytro Mishkin[15])
组织者之一的Dmytro Mishkin[15]首先对非城市场景数据集 PragueParks 进行介绍,这个数据集有更多野外场景图像。
这个数据集是由iPhone11采集的视频,处理得到的24fps的图像,它有如下几个特点:
介绍完数据集后,Dmytro Mishkin对挑战赛结果进行介绍。2021年图像挑战赛的规则相比于2019和2020年删除了显示描述子维度的限制。
今年提交的数相比去年有所减少,为何降低呢?延期是主要因素(新数据集,COVID等)。另外有则轶事:今年没有那么多人使用Aachen数据集以及HPatches数据集了。
接下来就是本次挑战赛的冠亚军获得者。
无限制特征点数量组别:来自旷视科技Research 3D团队获得冠军,腾讯优图与厦大人工智能学院获得亚军。(下面第5节有汇报)
限制特征点数量组别:腾讯优图与厦大人工智能学院获得冠军,旷视科技Research 3D团队获得亚军。(下面第5节有汇报)
对于无限制点数量的Stereo任务,有如下特点:
Stereo 8K 任务
对于无限制点数量的Multiview任务,有如下特点:
Multiview 8K 任务
对于有限制点数量的Stereo任务,有如下特点:
对于有限制点数量的Multiview任务,有如下特点:
组织者Vassileios Balntas[16]介绍了SimLocMatch Challenge,并对该挑战战报进行介绍。
首先介绍了什么是SimLocMatch。它是一个基于合成序列的数据集和基准,它包括多个不同的挑战场景。SimLocMatch的一个显著优点是可以获得真实和完全准确的真值。这可以对匹配方法的进行严格评估,该数据集能够获得相比使用真实数据更加准确的真值,这是使用SFM流程获得真值不具备的优势。
紧接着汇报了此次SimLocMatch挑战赛的TOP3算法。第一名来自旷视研究院,第二名是商汤的LoFTR,第三名是来自巴勒莫大学和捷克理工大学的HarrisZ+。(下面第5节有汇报)
下图表述了几点总结:
摘要:作者介绍了一种混合使用人工设计的特征点+深度学习描述子+人工设计的匹配器的方法。首先使用了手工设计的特征点HarrisZ+提取角点,随后使用AFFNet+HardNet8计算深度学习描述子;最后使用blob匹配和Delaunay Triangulation匹配(DTM)对特征进行匹配。
paper: arxiv.org/abs/2106.09584
汇报视频如下:
摘要:在一对图像之间建立稠密的对应关系是一个重要而普遍的问题。然而,在大位移或同质区域的情况下,稠密光流估计往往是不准确的。对于大多数应用和下游任务,如姿势估计、图像处理或三维重建,知道何时何地要相信估计的匹配是至关重要的。在这项工作中,我们旨在估计一个与两幅图像相关的稠密光流场,同时给出像素级的置信图,用以表明预测匹配的可靠性和准确性。我们开发了一种灵活的概率方法,联合学习光流预测和它的不确定性。特别是,我们将预测分布参数化为一个受限的混合模型,确保对准确的光流预测和异常值进行更好的建模。我们的方法在多个具有挑战性的几何匹配和光流数据集上取得了最先进的结果。我们进一步验证了概率置信估计对姿势估计任务的有用性。
code: github.com/PruneTruong/PDCNet
paper: arxiv.org/abs/2101.01710
摘要:本文提出了一种新颖的用于局部图像特征匹配的方法。代替了传统的顺序执行图像特征检测,描述和匹配的步骤,本文提出首先在粗粒度上建立逐像素的密集匹配,然后在精粒度上完善精修匹配的算法。与使用cost volume搜索对应关系的稠密匹配方法相比,本文使用了Transformers中的使用自我和交叉注意力层(self and cross attention layers)来获取两个图像的特征描述符。Transformers提供的全局感受野使图像能够在弱纹理区域产生密集匹配(通常情况下在低纹理区域,特征检测器通常难以产生可重复的特征点)。在室内和室外数据集上进行的实验表明,LoFTR在很大程度上优于现有技术。
code: github.com/zju3dv/LoFTR
paper: arxiv.org/abs/2104.00680
摘要:本文作者提出了一种匹配网络,输入为两张图像以及其中一张图像中的任意一点,输出为另外一张图像上的对应匹配点。为了使用图像的局部与全局信息,同时让模型能够捕获图像区域间的相似度,作者设计了基于Transformer的网络结构。在网络实际前向推理时,网络通过迭代地在估计点周围进行缩放,这能够使该匹配网络能够获得非常高的匹配精度。该网络能够在多项任务中获得最佳效果,其中包括稀疏匹配,稠密匹配,大视角立体视觉以及光流估计。
code: github.com/ubc-vision/COTR
paper: arxiv.org/abs/2103.14167
摘要:旷视团队主要是对SuperPoint + SuperGlue做了如下修改:预处理:增加掩模,不使用诸如人,车等动态物体上提取点;使用softmax函数对特征点位置进行精化,可以使特征点更加精准;另外使用了较大半径的NMS使特征点分布更加均匀。最后关键的一步特征匹配,旷视团队提供了3种思路:重新训练SuperPoint增强器描述能力;使用DISK特征对SuperGlue重新训练;联合使用上面两种方式。
流程图
思路一
思路二
思路三
摘要:优图团队也是对SuperPoint+SuperGlue做了修改。具体地,待匹配图像对经过一系列的仿射变换(增强特征点旋转不变性)以及前/背景分割后喂给SuperPoint提取特征点以及描述子(通过一个自动编码器将描述子降维到128维);随后是特征匹配,此处还是利用了SuperGlue(为了适配SuperGlue的输入,解码器还需将128维的特征解码到256维),作者对其SuperGlue网络进行了重新训练调整参数。
总结一下,说实话这次IMW2021并没有带来太大的惊喜,截至目前最好的(用于位姿估计)特征匹配算法还是基于SuperPoint(CVPR 2018) + SuperGlue (CVPR 2020)的变种。不过回顾整个的研讨会还是有如下几点体会:
-END-
— 版权声明 —
本微信公众号所有内容,由计算机视觉SLAM微信自身创作、收集的文字、图片和音视频资料,版权属计算机视觉SLAM微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。