文章/答案/技术大牛

发布

R-MVSNet：高分辨率多视图三维重建网络

文章来源：企鹅号 - 泡泡机器人SLAM

泡泡点云时空，带你精读点云领域顶级会议文章

标题：R-MVSNet: Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference

作者：Yao Yao, Zixin Luo, Shiwei Li, Tianwei Shen, Tian Fang, Long Quan

来源：CVPR 2019

编辑：任乾

审核：郑森华

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

背景

该文章来自中国香港科技大学和深圳Altizure公司的研究团队，该团队在2018年ECCV上提出了MVSNet，用于高精度多视图三维重建，但由于该网络内存消耗过大，无法应用到大场景中去，因此他们又提出了R-MVSNet，引入循环神经网络架构，以减小内存消耗。

摘要

深度学习已经被证明在多视图三维重建(MVS)中可以取得很好的效果，但是，现有的基于深度学习的三维重建方法最大的限制是尺度问题，大量的内存需求导致这些方法无法被应用在大尺度场景中。在本文中，我们提出了一种基于循环神经网络的方法R-MVSNet，以适应各种尺度的环境。与原有方法一次性构建3D代价体(cost volume)不同，该方法依序地在深度方向通过GRU单元正则化2D代价图(cost map)。这样就可以在显著减小内存消耗的情况下完成高精度三维重建。我们首先展示了该方法在MVS数据集上的优秀表现，然后给出了它在大尺度数据集上的结果，在这种尺度的环境下，原有方法无法完成重建任务。开源代码的链接为：https://github.com/YoYo000/MVSNet.

算法介绍

（一）MVSNet

由于本文方法是从MVSNet改进而来，很多东西一脉相承，因此为了把本文方法说清楚，需要先简要介绍下。MVSNet的网络结构如图1所示，它的主要贡献包括以下三点：

1. 提出了一个用于多视图三维重建的端到端深度学习网络。

2. 提出基于单应变换的2D到3D转换方法, 将相机的几何关系结合到神经网络之中。

3. 提出一种基于动态的损失度量方法, 以适应不同数目的多视角图像的输入。

图1 MVSNet网络

MVSNet先通过特征提取网络提取图像特征，再通过2D到3D的单应变换，把特征映射到参考图像的可视空间中以构建代价体(cost volume)，然后使用一个多尺度的三维卷积网络优化代价体得到三维概率空间，通过深度期望的方式得到参考图像的初始深度图以及对应的概率图，最后把参考图像及其深度图传入深度图优化网络，得到优化后的深度图。得到深度图便得到物体的三维模型。

（二）R-MVSNet

由于MVSNet需要一次性优化所有的3D代价体，因此需要大量的内存存储所有图像对应的数值，当尺度大了以后，如果内存满足不了要求，便无法再进行三维重建了。我们知道循环神经网络可以按照一定序列处理输入数据，因此作者把这种结构借鉴过来，顺序处理输入图像，以达到节省内存的目的。R-MVSNet的网络结构如图2所示：

图2 生成的初始地图示意

在R-MVSNet中，首先使用2D特征提取层提取输入图像的特征，再使用单应矩阵变换到参考影像的相机视锥体的正面平行面上，然后在不同深度计算代价，并经由卷积的GRU单元进行正则化，这样就可以沿着深度方向逐渐获取整个物体的几何信息。

实验结果

论文中方法在DTU数据集上的结果如表1所示，从表中的数据可以看出，本文提出的方法要优于其他方法。

表1 R-MVSNet在DTU数据集上与其他方法的对比

作者还给出了该方法在大尺度数据集上的效果，以体现该算法的优势。如图3所示：

图3 R-MVSNet大尺度数据集上的三维重建效果

总结思考

MVSNet以及R-MVSNet在深度学习与多视图几何相结合的方法上给我们提出了新的思路，过去在三维重建或者SLAM领域有两种方法一直在争论，一种是直接使用端到端的方式，输入图像，输出深度信息和相机外参，另一种认为深度学习没有充分利用已有的几何模型，弃明确模型于不顾，反而求诸于解释性差的深度学习，不明智，因此他们主张深度学习只适合用于特征提取，在完成特征提取以后，便要用传统多视图几何的方法进行后续的位姿解算工作。而本文虽然是使用端到端的方式，但是在构建网络时，把单应矩阵也构建在内，并没有弃模型于不顾，这样就能够把几何模型与前面的特征提取融合在一个网络中，结合二者所长。

Abstract

Deep learning has recently demonstrated its excellentperformance for multi-view stereo (MVS). However, onemajor limitation of current learned MVS approaches is thescalability: the memory-consuming cost volume regularization makes the learned MVS hard to be applied to highresolution scenes. In this paper, we introduce a scalablemulti-view stereo framework based on the recurrent neural network. Instead of regularizing the entire 3D cost volume in one go, the proposed Recurrent Multi-view StereoNetwork (R-MVSNet) sequentially regularizes the 2D costmaps along the depth direction via the gated recurrentunit (GRU). This reduces dramatically the memory consumption and makes high-resolution reconstruction feasible. We first show the state-of-the-art performance achievedby the proposed R-MVSNet on the recent MVS benchmarks.Then, we further demonstrate the scalability of the proposed method on several large-scale scenarios, where previous learned approaches often fail due to the memory constraint.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡论坛：http://paopaorobot.org/bbs/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

发表于: 2019-08-162019-08-16 06:30:47
原文链接：https://kuaibao.qq.com/s/20190816A037FM00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

R-MVSNet：高分辨率多视图三维重建网络

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐