AAAI 2018 | 双流束网络:北理工提出深度立体匹配新方法

选自arXiv

作者:Lidong Yu 等

机器之心编译

参与:李泽南、李亚洲

由北京理工大学贾云得教授研究组提出的立体匹配新方法着重于成本聚合问题,在 KITTI 和 Scene Flow 基准测试中超越了此前业内的最佳水平。本文已提交今年 2 月举行的 AAAI 2018 大会,并成为 Spotlight poster 论文。

立体匹配(Stereo matching)是计算机视觉社区研究的一个基础问题。立体匹配的研究目标是计算由立体照相机收集的图像的视差图(disparity map)。这种视差图在 3D 场景重建、机器人、自动驾驶领域都有普遍的应用。随着大规模数据集的出现、计算力的快速发展,深度神经网络经验证在立体匹配中有所成效。目前,许多顶尖的方法通过学习稳健地局部特征或者相似性测量作为成本计算来提升表现((Zbontar and LeCun 2015; Luo, Schwing, and Urtasun 2016; Shaked and Wolf 2016)。然而,这些方法在少纹理区域和遮挡边界区域问题上仍有很大的困难,这主要是因为在成本计算过程中看到的视野受限。

图 1:典型的深度立体匹配方法流程图与我们基于学习的成本聚合(cost aggregation)方法流程图的对比。架构 A 是典型的深度立体匹配方法的图,里面使用的是传统的成本聚合方法。架构 B 是我们基于学习的成本聚合方法。关于架构的更多细节在图 2 中有所展示,其中我们根据颜色匹配了各个部分。

为了处理成本计算结果的不匹配值(成本体积),成本聚合在传统的立体匹配方法中是不可或缺的。成本聚合应用于成本体积,用于改正聚合匹配成本时出现的不匹配值。它通常是通过在一个支持区域中的常数差异上加和或平均匹配成本完成的(Yang 2012;Min,Lu and Do 2011;Tombari et al. 2008)。然而,传统的成本聚合方法受到浅层手工设计的限制,无法进行聚合。它们无法在保持局部适值的情况下有效形成全局引导。在本论文中,北京理工大学的研究人员提出了一种基于学习的成本聚合方法,可在全局视野和局部适值之间做出有效平衡,其方法使用了全新的双流束神经网络。

本论文提出的成本聚合能够以端到端的形式整合其他深度立体匹配流程,因为它是以整个网络子架构的形式构建的。通过基于学习的成本聚合,立体匹配流程的端到端训练不仅可以学习成本计算的特征和相似性,也可以表现为成本聚合。新方法的架构和典型的深度立体流程之间的对比如图 1 所示。我们可以看到,基于学习的成本聚合是通过一个双流束网络(twostream network)以明确方式实现的。

成本聚合过程被重述为一个生成潜在成本聚合结果(提出建议,选择其中最佳)的学习机制。因此,基于学习的成本聚合由双流束网络执行:一个流用于生成建议,另一个流用于评估建议。第一个流根据成本体积(由成本计算算出)计算出的潜在聚合结果得出局部适值。生成是通过卷积操作沿着成本体积的三个维度来执行的,其中结合了空间和深度上的信息。第二个流通过评估每个建议来为成本聚合带来全局视角引导,这个过程是通过轻卷积网络将低阶结构信息作为建议的评估标准来获得的。由于结构信息只包含独立于深度的 2D 信息,因此引导(guidance)的深度维度不变。因此,对每个建议的不同评估遵循相同的引导。在对每个建议评估之后,模型使用胜者通吃策略来选出最佳聚合值,形成聚合成本值。

研究人员提出的架构在 Scene Flow(Mayer 等人,2016)和 KITTI 基准测试上(Menze & Geiger,2015;Geiger,Lenz and Urtasun,2012)展示了很高的准确度。该研究主要贡献为以下三点。

  • 该研究是第一个在基于学习的立体匹配方案中明确对成本聚合建模的方法。研究人员使用生成学习过程重新形式化成本聚合,并让算法在成本聚合建议中选择。
  • 研究人员提出了一种全新的双流束网络来生成和选择成本聚合建议。这种双流束网络保留了丰富的语义信息,同时带来了低级结构信息,证明了将高级特征与低级特征融合的能力。
  • 新提出的基于学习的成本聚合是端到端可训练的深度立体匹配流程子架构。它适合于没有成本聚合的流程,进一步提升了准确率。

图 2:北理工提出的立体匹配管道与基于学习的成本聚合。

不同的颜色代表不同数据的大小:蓝色对应 W × H × C,橘色对应 D × H × W × C,绿色对应 H × W × G,紫色对应 D × H × W × G。成本计算步骤分为三个部分。A1 是使用残差 Siamese 网络的特征提取子网络。A2 是特征体积构建部分,细节如图 3 所示。A3 计算使用 3D 卷积网络计算特征体积的相似,输出初始成本体积。基于学习的成本聚合是由一个双流束网络座位整个流程的子架构实现的。指导流程在 B1。建议流程在 B2。成本聚合过程是通过赢者通吃的策略来选择最佳建议。最后,使用 soft-argmin 函数来计算视差图。

网络架构

作为像素级的匹配任务,立体匹配需要计算左图像中每个像素与右图像中 D 个对应像素之间的相似性,其中 D 是最大视差。计算匹配成本可形成成本体积 C0(h,w,d)。立体匹配管道和其建议的成本聚合由端到端可训练网络执行。与使用黑箱网络的方法相比,我们从经典立体匹配算法(Scharstein & Szeliski,2002)中获取灵感,提出了双流束网络的成本聚合方法。

图 3:特征体积构建操作。每个网格方块代表一个像素的特征。我们可以简单地使用移位和连接操作来形成一个特征量。

表 4:KITTI2012 上的各方法对比

表 5:KITTI2015 上的各方法对比

论文:Deep Stereo Matching with Explicit Cost Aggregation Sub-Architecture

论文链接:https://arxiv.org/abs/1801.04065

深度神经网络在立体匹配(stereo matching)上表现出色。很多研究着重于特征提取和相似度测量,却忽视了至关重要的成本聚合。在本文中,我们提出了一种基于学习的成本聚合方法,通过在端到端训练流程中的新型子体系结构进行立体匹配。我们将成本聚合重新形式化为生成和选择建议,并表明聚合结果的成本聚合学习过程。成本聚合的子架构是通过一个双流束网络实现的,一个用于生成成本汇总建议,另一个用于选择建议。选择的标准由轻卷积网络的低阶信息获取结构确定。双流束网络提供了成本聚合的全局视图指导,避免了由于匹配计算成本造成视角限制出现的不匹配值。在 KITTI 和 Scene Flow 中的测试表明我们的方法超越了此前业内的最佳水平。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-01-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Pytorch实践

机器是如何做阅读理解的?

机器阅读理解 斯坦福有个很重要的比赛,就是让机器完成阅读理解题目,即给定一篇文章,让机器理解文章含义进行题目回复。每年这一比赛都是国际性的,引来了业界、学术界的...

4617
来自专栏ATYUN订阅号

有这好事?神经网络模型Word2vec竟能根据个人喜好推荐音乐

? 每一个点代表一首歌。分数越接近,歌曲就越相似 流媒体服务已经改变了我们体验内容的方式。虽然推荐系统以前专注于向用户展示你可能想要购买的内容,但现在的流媒体...

55319
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

3726
来自专栏CSDN技术头条

大数据架构详解:从数据获取到深度学习(内含福利)

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟...

3648
来自专栏机器之心

CVPR2018 | 新加坡国立大学论文:利用互补几何模型改善运动分割

选自arXiv 作者:徐迅等人 机器之心编译 参与:路、张倩 许多现实世界的场景不能简单地归类为普通的或者退化的,同时对场景的运动分割也不能简单地划分为基础矩阵...

3107
来自专栏大数据挖掘DT机器学习

机器学习知识体系

随着2016年Alpha Go在围棋击败李世石,2017年初卡内基梅隆大学人工智能系统Libratus在长达20天的鏖战中,打败4名世界顶级德州扑克玩家,这标志...

42811
来自专栏量化投资与机器学习

【机器学习课程】深度学习与神经网络系列之绪论介绍

神经网络与深度学习 让机器具备智能是人们长期追求的目标,但是关于智能的定义也十分模糊。Alan Turing在 1950年提出了著名的图灵测试:“一个人在不接触...

2229
来自专栏大数据文摘

人工智能概念诞生60年,哪些大牛堪称“一代宗师”?

2558
来自专栏ATYUN订阅号

剑桥大学开发AI模型,结合视觉与语义信息,研究大脑识别过程

剑桥大学的神经科学研究人员将计算机视觉与语义相结合,开发出一种新模型,有助于更好地理解大脑中物体的处理方式。

1011
来自专栏武培轩的专栏

三维重建方法

最近在看三维重建方面的论文,进行一下知识总结。 三维重建技术 三维重建技术就是要在计算机中真实地重建出该物体表面的三维虚拟模型,构建一个物体完整的三维模型,大致...

3717

扫码关注云+社区

领取腾讯云代金券