前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【CVPR2022 Oral】Manhattan-SDF:从多视角图像做三维场景重建

【CVPR2022 Oral】Manhattan-SDF:从多视角图像做三维场景重建

原创
作者头像
一点人工一点智能
发布2023-02-21 15:13:09
2K0
发布2023-02-21 15:13:09
举报

作者丨郭浩宇@知乎

原文 | 【CVPR2022 Oral】Manhattan-SDF:从多视角图像做三维场景重建

编辑丨东岸因为@一点人工一点智能

我们介绍一篇2022 CVPR Oral的三维场景重建论文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

图片
图片

01  引言

1.1 论文的问题描述

输入在室内场景采集的图像序列,论文希望能生成该室内场景的三维模型。该问题有许多应用,例如虚拟与增强现实、机器人等。

图片
图片

1.2 当前方法在这个问题的局限性

传统方法一般通过MVS(Multi-View Stereo) [1,2] 做场景重建,首先根据多视角匹配来估计每个视角的深度图,然后将每个视角的深度在三维空间中做融合。这类方法最大的问题在于难以处理弱纹理区域、非朗伯表面,原因是这些区域难以做匹配,从而导致重建不完整。

图片
图片

最近,有方法提出基于隐式神经表示做三维重建。NeRF [3] 通过可微分的体积渲染技术从图像中学习隐式辐射场。NeRF可以实现有真实感的视角合成,但是几何重建结果噪音很严重,主要是因为缺乏表面约束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距离场)建模场景的几何,并实现了基于SDF的体积渲染,可以得到相比于NeRF更加平滑的几何重建结果。此类方法都是基于光度一致性原理,因而难以处理弱纹理区域,在室内场景的重建质量很差。

图片
图片

1.3 我们的观察和对问题的解决

为了克服室内场景重建在弱纹理平面区域的歧义性,我们在优化过程中基于曼哈顿假设采取了相应的几何约束。曼哈顿假设是一个被广泛使用的室内场景假设,即室内场景的地面、墙面、天花板通常被对齐在三个互相垂直的主方向,基于此我们对地面、墙面区域设计了对应的几何约束。

图片
图片

02  论文方法

2.1 方法概述

论文使用神经隐式表示建模场景的几何、外观和语义,并从多视角图像优化该表示。具体步骤为:

1)使用可微分体积渲染技术,根据输入图像优化几何、外观。

2)预测墙面、地面的语义分割,并基于曼哈顿假设对这些区域采用相应的几何约束。

3)为了提升对语义分割不准确性的鲁棒性,我们提出联合优化策略来同时优化几何和语义,从而实现更高质量的重建结果。

图片
图片

2.2 基于SDF的体积渲染

为了采用体积渲染技术,我们首先将有向距离场转换为体积密度:

图片
图片

其中\beta 是一个可学习的参数。对于每个像素,我们在对应的射线上采样三维点,通过数值积分计算渲染的颜色:

图片
图片

其中\delta_i=||\pmb{\text{x}}_{i+1}-\pmb{\text{x}}_{i}||_2 是相邻采样点的间距,T_i=\text{exp}(-\sum^{i-1}_{j=1}\sigma_j\delta_j) 是累计的透明度。我们通过photometric loss优化网络。

2.3 几何约束

我们首先使用DeepLabV3+ [6] 在图像空间分割地面、墙面区域。对于地面区域的每个像素,我们首先做体积渲染得到对应的表面点,通过计算有向距离场在该处的梯度得到法向方向,设计损失函数约束其法向竖直向上:

图片
图片

其中\pmb{\text{n}}_f=<0,0,1> 表示目标地面区域的法向方向。对于墙面区域,我们引入了一个可学习的法向方向\pmb{\text{n}}_\omega ,并设计了一个损失函数,约束墙面区域的法向方向要么与\pmb{\text{n}}_\omega 平行,要么与之垂直:

图片
图片

2.4 联合优化

几何约束在语义分割准确的区域可以起到很好的效果,但网络预测的语义分割在部分区域可能是不准确的,这会影响重建结果。如下图所示,由于语义分割不准确,导致加上几何约束之后重建结果变得更加糟糕。

图片
图片

为了克服这个问题,我们在3D空间中学习语义场。我们使用体积渲染技术将语义渲染到图像空间,并通过softmax归一化得到每个像素属于地面、墙面区域的概率,我们利用这个概率来加权几何约束:

图片
图片

同时,为了避免trivial solution(属于地面、墙面的概率被降为0),我们同时也用2D语义分割网络的预测计算交叉熵作为监督:

图片
图片

03  实验分析

3.1 Ablation studies

通过定性、定量的实验结果,我们发现使用体积约束能够提升在平面区域的重建效果,但也会由于语义分割的不准确性导致一些非平面区域的重建变差,通过使用我们提出的联合优化策略,可以全面地提升重建结果。

图片
图片
图片
图片

3.2 与SOTA方法的对比

我们在ScanNet和7-Scenes数据集上进行了和之前MVS方法、基于volume rendering的方法的对比,数值结果大幅领先于之前的方法。

图片
图片
图片
图片

1. 书籍推荐-《基于深度学习的计算机视觉》

2. 书籍推荐-《机器人学原理》

3. 书籍推荐 - 《基于C++的机器学习实操》

4. 书籍推荐 -《自主移动机器人导论》

5. 书籍推荐-《机器人手册》第二版

6. 书籍推荐-《3D计算机视觉》

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01  引言
    • 1.1 论文的问题描述
      • 1.2 当前方法在这个问题的局限性
        • 1.3 我们的观察和对问题的解决
        • 02  论文方法
          • 2.1 方法概述
            • 2.2 基于SDF的体积渲染
              • 2.3 几何约束
                • 2.4 联合优化
                • 03  实验分析
                  • 3.1 Ablation studies
                    • 3.2 与SOTA方法的对比
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档