编者按:本文来自ECCV2018选为Oral的论文,来自中国香港科技大学和Altizure公司的研究团队提出了一种既高精度又高效率的三维重建网络,非常值得参考,52CV强烈推荐。代码已经开源,欢迎Star。
作者信息:
项目地址:
https://github.com/YoYo000/MVSNet
多视点三维重建(Mult-view Stereo)的挑战:
如何从图像中恢复物体的三维信息是计算机视觉研究的一个核心问题。Multi-view Stereo (MVS)的方法即为给定从不同视角拍摄的图像以及其对应的相机几何,通过稠密匹配的方式恢复出物体以及场景的三维结构。传统的MVS算法(例如PMVS,COLMAP)基于handcrafted像素匹配算法具有相当高的重建准确度(accuracy),但对于纹理稀疏、非漫反射的物体表面难以得到令人满意的重建效果。因此,MVS算法的重建完整度(completeness)还有很大的提升空间。
MVSNet:
本文提出了一个端到端的深度神经网络MVSNet来进行多视点三维重建,由于问题的输入为图像与多视角相机几何,如何将相机几何与深度学习神经网络相结合是MVSNet设计的重点。本文提出通过可微单应映射(Differentiable Homography)操作将相机几何嵌入深度神经网络中。这一操作连接了2D图像特征网络与3D空间正规化网络,使得多视点三维重建的端到端训练成为了可能。此外,MVSNet的另一难点在于如何处理不定数目的图像输入。我们设计了一个基于方差的多视点匹配代价计算准则,将任意数量的像素特征向量映射为一个匹配代价向量,从而使得同一网络适用于任意数目的图像输入。
MVSNet的网络结果如上图所示,输入图像将经过特征提取网络得到深度图像特征,并通过可微单应映射在参考图像的可视空间中构建cost volume;该cost volume将经过一个多尺度的三位卷积网络优化得到一个三维概率空间,并通过深度期望的方式得到参考图像的初始深度图以及对应的概率图(用于深度图去噪);接下来参考图像以及其深度图将作为输入传入深度图优化网络,得到优化后的深度图作为MVSNet的输出。最后,我们可以通过深度图融合以及去噪的方法得到图像对应的三维点云模型。
实验结果:
DTU dataset:相较于传统的MVS算法,我们的方法在保持了重建准确度的同时,极大地提高了模型的重建完整度。MVSNet在DTU数据集上获得了远超其他方法的结果;
Tanks and Temples benchmark:MVSNet在未重新微调训练的情况下,在室外场景Tanks and Temple榜单中排名第一(before April 18)。此外,MVSNet的运行速度也数倍快于之前的state-of-the-arts。
论文链接:
https://arxiv.org/abs/1804.02505