2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步

机器之心

发布于 2020-08-11 16:25:06

7990

发布于 2020-08-11 16:25:06

文章被收录于专栏：机器之心

机器之心报道

编辑：张倩、小舟、蛋酱

万物皆可转 3D。

上班的时候想旅行，休假的时候想躺着，这是大多数年轻人的状态。如果能够躺在床上旅行，岂不美哉？

在古代中国也有「卧游」的典故，凡所游履，皆图之于室，可惜当时的技术条件跟不上，只能欣赏画卷上的美景。

面对新冠疫情的蔓延，人们不得不限制外出，取消各类出行计划，「卧游」的需求也变得更加急切。当然，这一需求可以通过 VR、AR 技术来满足，但前提是，你要有足够逼真的 3D 图像才能让人有身临其境的感觉。

前段时间，加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF，可以利用少数几张静态图像生成多视角的逼真 3D 图像。

NeRF 模型 demo。论文及项目地址：https://www.matthewtancik.com/nerf

但这一模型也有缺陷：如果环境中出现了明显的光线变化或人、物移动造成的遮挡，模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说，NeRF 的适用范围可能非常有限。

谷歌的团队也看到了这种缺陷，并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild（NeRF-W），使其更加适用于充满光线变化、遮挡的户外环境。

目前，研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集，这些生成的效果图在各项指标上均实现了新的 SOTA。

NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值，可以平滑地捕获外观的变化，而不影响 3D 几何形状。

外观嵌入插值。

该模型将光线从基础 3D 场景几何中分离出来，即使光线发生变化，3D 场景几何仍可保持一致：

几何一致性。

研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究，验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下，NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。

勃兰登堡门。

圣心大教堂。

特雷维喷泉。

NeRF-W 改进了什么？

利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战，也是许多 AR 和 VR 应用的基础。

传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来，由于神经渲染技术的出现，该领域又取得了重大的进展。

加州大学伯克利分校、谷歌等机构提出的神经辐射场（NeRF）方法在神经网络的权重范围内，隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图，从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是，这仅证明了 NeRF 在受控环境下运行良好：场景是在较短的时间范围内捕获，在此期间，场景中的光照条件保持恒定，而且所有内容都是静态的。

NeRF 的局限性在于，当场景内出现移动的物体或光照发生变化时，模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中，图像的拍摄时间可能间隔数小时、数天甚至数年，而且场景中可能包含行人和汽车。

NeRF 假设世界在几何、物质和光度学上是静态的，即世界的密度和辐射（radiance）都是恒定的。因此，NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。

但现实世界中的许多数据集都不符合该假设。例如，在著名旅游地标的大规模互联网照片集中，两位摄影师可能站在相同的位置并拍摄相同的地标，但是在这两张照片的时间间隔里，世界可能已经发生了巨大的变化：车、人会动，天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异：曝光、色彩校正和色调映射可能都有所不同。

本文实验部分表明：将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。

为了能够处理这些复杂的场景，来自谷歌的研究者提出了「NeRF-W」。

论文链接：https://arxiv.org/pdf/2008.02268.pdf

首先，研究者对每张图片的外观变化进行建模，包括曝光、光线、天气，并使用一个学到的低维潜在空间进行后处理。

根据 GLO（Generative Latent Optimization）模型的框架，研究者优化了每个输入图像的外观嵌入，从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制，如下图 1 所示。

然后，研究者将场景建模为共享元素和基于图像元素的组合，从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成，而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场（secondary volumetric radiance field）和一个数据相关的不确定场（datadependent uncertainty field），后者能够捕获变化的观测噪声，进一步减少瞬态物体对静态场景表征的影响。

具体方法

与 NeRF 类似，研究者从非结构化照片集