专栏首页机器之心2D景观转3D风景大片,无惧复杂光线与遮挡,人类离「躺着旅行」的梦想又近了一步

2D景观转3D风景大片,无惧复杂光线与遮挡,人类离「躺着旅行」的梦想又近了一步

机器之心报道

编辑:张倩、小舟、蛋酱

万物皆可转 3D。

上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态。如果能够躺在床上旅行,岂不美哉?

在古代中国也有「卧游」的典故,凡所游履,皆图之于室,可惜当时的技术条件跟不上,只能欣赏画卷上的美景。

面对新冠疫情的蔓延,人们不得不限制外出,取消各类出行计划,「卧游」的需求也变得更加急切。当然,这一需求可以通过 VR、AR 技术来满足,但前提是,你要有足够逼真的 3D 图像才能让人有身临其境的感觉。

前段时间,加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF,可以利用少数几张静态图像生成多视角的逼真 3D 图像。

NeRF 模型 demo。论文及项目地址:https://www.matthewtancik.com/nerf

但这一模型也有缺陷:如果环境中出现了明显的光线变化或人、物移动造成的遮挡,模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说,NeRF 的适用范围可能非常有限。

谷歌的团队也看到了这种缺陷,并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild(NeRF-W),使其更加适用于充满光线变化、遮挡的户外环境。

目前,研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集,这些生成的效果图在各项指标上均实现了新的 SOTA。

NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值,可以平滑地捕获外观的变化,而不影响 3D 几何形状。

外观嵌入插值。

该模型将光线从基础 3D 场景几何中分离出来,即使光线发生变化,3D 场景几何仍可保持一致:

几何一致性。

研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究,验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下,NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。

勃兰登堡门。

圣心大教堂。

特雷维喷泉。

NeRF-W 改进了什么?

利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战,也是许多 AR 和 VR 应用的基础。

传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来,由于神经渲染技术的出现,该领域又取得了重大的进展。

加州大学伯克利分校、谷歌等机构提出的神经辐射场(NeRF)方法在神经网络的权重范围内,隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图,从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是,这仅证明了 NeRF 在受控环境下运行良好:场景是在较短的时间范围内捕获,在此期间,场景中的光照条件保持恒定,而且所有内容都是静态的。

NeRF 的局限性在于,当场景内出现移动的物体或光照发生变化时,模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中,图像的拍摄时间可能间隔数小时、数天甚至数年,而且场景中可能包含行人和汽车。

NeRF 假设世界在几何、物质和光度学上是静态的,即世界的密度和辐射(radiance)都是恒定的。因此,NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。

但现实世界中的许多数据集都不符合该假设。例如,在著名旅游地标的大规模互联网照片集中,两位摄影师可能站在相同的位置并拍摄相同的地标,但是在这两张照片的时间间隔里,世界可能已经发生了巨大的变化:车、人会动,天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异:曝光、色彩校正和色调映射可能都有所不同。

本文实验部分表明:将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。

为了能够处理这些复杂的场景,来自谷歌的研究者提出了「NeRF-W」。

论文链接:https://arxiv.org/pdf/2008.02268.pdf

首先,研究者对每张图片的外观变化进行建模,包括曝光、光线、天气,并使用一个学到的低维潜在空间进行后处理。

根据 GLO(Generative Latent Optimization)模型的框架,研究者优化了每个输入图像的外观嵌入,从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制,如下图 1 所示。

然后,研究者将场景建模为共享元素和基于图像元素的组合,从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成,而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场(secondary volumetric radiance field)和一个数据相关的不确定场(datadependent uncertainty field),后者能够捕获变化的观测噪声,进一步减少瞬态物体对静态场景表征的影响。

具体方法

与 NeRF 类似,研究者从非结构化照片集

中学得了一种体积密度表征 F_θ,该照片集中的相机参数可用或已估计。从本质上讲,NeRF 假定其输入视图一致。但是,如图 2 所示,互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象:1)光度变化,2)瞬时目标。

研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。

潜在外观建模

为了使 NeRF 适应变化的光线和光度后处理,研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖:

T(t)如此前定义。

研究者采用了 GLO 模型,其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量

。在 NeRF 中,研究者用数值积分近似方程(8),用基于图像的辐射

代替了基于图像的辐射 c(t)。

嵌入

1在与 NeRF 参数θ一起训练的过程中进行了优化。

图 8:注意人物(左)和光线(右)没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线,而不影响 3D 几何。

瞬时目标

研究者通过两种方式来帮助 NeRF 应对瞬时目标。

首先,他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场,这使得 NeRF-W 可以重建包含遮挡的图像,同时不在静态场景表征中引入瑕疵。

其次,他们没有直接建模观察到的颜色,而是针对该值建立了一个概率分布模型。具体来说,他们将每个像素的颜色建模为各向同性正态分布,并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。

这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。

实验

为了验证 NeRF-W 的效果,研究者设计了两个领域的实验,一个实验用的是网络上找到的旅游目的地地标照片,另一个用的是合成场景的渲染图像。

旅游照数据集

下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。

下表 1 展示了定量对比结果。从中可以看出,NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR(峰值信噪比)指标上,NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。

乐高数据集

第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动(着色和遮挡)来模拟室外环境可能带来的挑战:光照变化和瞬时目标。

如下表 2 所示,在原始数据集上,所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败,但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色,但遮挡处理不好。只有 NeRF-W 可以两者兼顾(如下图 10 所示)。

最后,关于 NeRF-W 的更多研究信息可以观看该视频:

视频内容

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 生成式模型入门:训练似然模型的技巧

    生成模型(其实都是统计机器学习模型)旨在从一些(可能是条件的)概率分布 p(x) 中取样本数据,并学习对 p(x) 进行近似的模型 pθ(x)。建模过程使我们可...

    机器之心
  • 想用StyleGAN生成老婆?来看看这个小哥的复现细节吧

    这篇技术博客介绍了一个使用生成式对抗网络完成的项目。由于这是一个个人项目,我采用了一个在专业领域中通常不会使用的动漫人物数据集「DANBOORU2018」。

    机器之心
  • 「史上最强GAN图像生成器」BigGAN的demo出了!

    ICLR 2019 大会将在明年 5 月 6 日于美国举行,9 月 27 日论文提交截止后很多论文引起了大家的关注,其中就有一篇 GAN 生成图像的论文。该研究...

    机器之心
  • 谷歌给NeRF动了个小手术,2D变3D,照片视角随心换

    最近,来自谷歌Research和谷歌Brain的一组研究人员开发了一个深度学习模型,仅使用非结构化的野外图片集合就能合成复杂的户外3D场景图。

    新智元
  • 这个AI能帮你女朋友自拍:从照片生成3D视频,总有个角度让她满意

    现在可以把选最美角度这件事交给AI了,让妹子不再苦恼。只要几张照片,它能从中生成各种角度的自拍。

    深度学习技术前沿公众号博主
  • 2D变3D,视角随意换,神还原高清立体感,还是不用3D建模的那种 | 代码数据开源

    这就是来自伯克利大学和谷歌的最新研究:NeRF,只需要输入少量静态图片,就能做到多视角的逼真3D效果。

    量子位
  • 开发Gradle插件并上传至本地maven库

    作为一个Android开发者,知道gradle是用来构建Android项目的,一开始在学校的时候,没怎么关注并使用过gradle,现在工作发现gradle配置、...

    用户1108631
  • 数据地图系列14|tableau数据地图

    今天跟大家分享数据地图系列的第14篇(最后一篇)——tableau数据地图。 前一篇曾提到说,tableau是全球知名的数据可视化领域独占鳌头的可视化产品,在各...

    数据小磨坊
  • 如何有效使用Mysql的Query Cache

    须要根据Query Cache失效机制来判断哪些表适合使用Query哪些表不适合。 由于Query Cache的失效主要是因为Query所依赖的Table数据发...

    dys
  • 不只是支持Windows, PyTorch 0.4新版本变动详解与升级指南

    WZEARW

扫码关注云+社区

领取腾讯云代金券