VR技术: Facebook的3D照片是怎么回事?

今年5月份的时候,Facebook推出过一项名为3D照片的新功能。然而,除了一段简短的视频和名字之外,几乎没有什么人提到它。但该公司的计算摄影团队刚刚公布了关于这个功能如何工作的研究成果,我自己进行了尝试,发现这些结果是非常引人注目的。

如果你没看过5月份的预告片,3D照片就像其他照片一样,将会出现在你的新闻订阅源中,当你滚动鼠标、触摸或点击它们、或倾斜你的电话时,照片就会像一个真实 小的立体的窗口一样,在视角上作了相应的改变。它不仅适用于普通的人和狗的照片,也适用于普通风景和全景照片。

这听起来有点异想天开,我也很怀疑是不是真的,但这种实际效果很快就赢得了我的认可,它确实让人感觉像是一个小的神奇的窗口,通过它可以进行观察,而不是某个3D模型——当然,即使它确实是这样的。这是它的实际效果:

GIF

我和Facebook的西雅图办公室的研究科学家Johannes Kopf谈了关于如何实现这些3D照片的方法,他的相机和计算摄影部门都在那里。Kopf与伦敦大学学院的Peter Hedman合著了这篇论文,描述了深度增强(depth-enhanced)图像产生的方法,他们将在8月份在SIGGRAPH上展示。

有趣的是,3D照片的起源并不在于如何增强快照(snapshots),而在于如何将VR内容的创作大众化。科普夫指出,“这都是合成的”。而没有哪个普通的脸书用户有工具或意愿来建造3D模型并去填充虚拟空间。

一个例外是全景和360度图像,他们通常足够宽,可以通过VR进行有效的探索。但这种体验也就只能比在几英尺外看商店柜台上画好一点,也没什么大的变革。缺乏的是任何深度感觉-因此,Kopf决定将深度添加到图像中。

视频内容

我看到的第一个版本是用户移动他们的普通相机,模式捕捉整个场景;通过仔细分析视差(本质上,不同距离的物体在相机移动时如何移动不同的量)和手机运动,这个场景可以在3D中得到很好的重建(如果你知道它们是什么的话,可以用法线地图来完成)。

但是,从单个相机的快速成像中推断深度数据是一个需要耗费大量的CPU处理时间,尽管在某种程度上很有效,但作为一种技术,也相当过时。特别是当现在许多相机实际上有两个摄像头时,比如一对小眼睛。这款双摄像头手机将能够拍摄3D照片(不过也有计划将这一功能推向低端市场)。

通过同时捕捉两个摄像头的图像,即使是运动中的物体也可以观察到视差的差异。而且由于这两张照片的拍摄位置都是一样的,因此深度数据的噪音要小得多,减少了数据处理以达到可用的效果。

这是它是如何工作的。手机的两个摄像头拍下一对图像,然后设备立即开始自己的工作,从这些图像中计算出“深度地图”,这是一种编码框架中所有计算出的距离的图像。

结果是这样的:

苹果(Apple)、三星(Samsung)、华为(Huawei)、谷歌(谷歌)——他们都有自己的方法来实现这一点。

问题是创建的深度地图没有绝对的比例——例如,淡黄色并不代表10英尺,深红色代表100英尺。在左边几英尺处拍摄的照片中有一个人,黄色表示1英尺,红色表示10英尺。每一张照片的比例都不一样,这意味着如果你拍了不止一张照片,更不用说几十张或上百张照片了,几乎没有一致的迹象表明一个给定的物体到底有多远,这使得把它们拼接在一起实在是一件痛苦的事情。

这就是Kopf和Hedman和他们的同事们的问题。在他们的系统中,用户通过移动手机来获取周围环境的多个图像;它每秒钟捕获一个图像(技术上是两个图像和一个结果深度图),并开始将其添加到它的集合中。

在背景中,一个算法会同时观察深度地图和手机运动检测系统捕捉到的摄像头的微小移动。然后深度地图基本上被调整成正确的形状,与他们的邻居对齐。这部分对我来说是不可能解释的,因为这正是研究人员所做的秘密处理。

这不仅能在多重曝光下创造出一幅平滑而精确的深度图,而且速度非常快:每张照片大约1秒,这就是为什么他们以那样的速度制作出的工具,以及为什么他们把这篇论文称为“即时3D摄影”。

接下来,实际的图像拼接在一起,这是全景图的正常方式。但是,通过利用新的和改进的深度图,这个过程可以被加速和减少,他们声称,大约在一个数量级上。

由于不同的图像捕获深度不同,调整它们可能很困难,正如左边和中间的示例所示——许多部分将被排除或产生不正确的深度数据,右边的是Facebook的方法。

然后深度地图变成了3D网格(一种二维模型或外壳)-把它想象成一种纸状模型。然后,我们会检查网格是否有明显的边缘,比如前景中的栏杆遮挡了背景中的景观,并沿着这些边缘“撕裂”。这些空间将不同的物体分隔开来,使它们看起来处于不同的深度,并随着视角的变化而移动。

虽然这有效地创造了立体模型的效果,但您可能已经猜到前景看起来就像一张剪纸,因为如果是从正上方捕捉到一个人的脸,那么就不会有关于他的侧面或后脑勺的信息。

GIF

这就是通过卷积神经网络“产生幻觉”而生成图像剩余部分。这有点像一个内容感知填充,猜测什么去了哪里,什么在附近。如果有头发,那么头发很可能还会继续。如果它是一种肤色,它可能也会延续下去。所以它令人信服地重新创造了这些纹理通过对物体的形状的估计,缩小了空隙当你稍微改变视角时,它会显示出你真的在“环顾”这个物体。

最终的结果是一个对透视的变化做出现实反应的图像,使它可以在VR中看到,或者在新闻提要中作为一种双orama型的3D照片。

实际上,它不需要任何人做任何不同的事情,比如下载插件或学习新的手势。滚动浏览这些照片会稍微改变视角,提醒人们注意到他们的存在,从那里所有的互动都感觉很自然。它并不完美——如果你仔细观察,会发现缝合的图像中有人工制品和奇怪的东西,当然,幻觉内容的效果也各不相同——但它很有趣,也很吸引人,这一点更为重要。

计划将在夏季结束。目前,3D照片的创作将仅限于拥有两个摄像头的设备——这是技术的局限——但任何人都可以观看它们。

但是这篇论文也讨论了通过另一种卷积神经网络来创造单摄像机的可能性。这个结果,仅仅是短暂的接触,并不像双摄像头系统那么好,但还是比目前使用的其他方法更有效,更好,更快。所以,我们这些仍生活在单一摄像机的黑暗时代的人有一些希望。

原文发布于微信公众号 - 程序你好(codinghello)

原文发表时间:2018-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

教你两种黑掉“人工智能”的方法

翻译 | AI 科技大本营 参与 | shawn 编辑 | Donna 近期,微软(Microsoft)和阿里巴巴(Alibaba)先后宣布,其人工智能系统在一...

40860
来自专栏AI科技评论

小白不知从何入手认知机器学习?Shakir Mohamed 授你锦囊妙计

导读:如何让机器学习从环境中自主学习和思考是科学家们正努力探索的目标。本文的一些想法说不定可以为研究带来一丝灵感。 注:本文译自 The Spectator,作...

29760
来自专栏AI科技评论

视频 | 棋类大战中惨败的人类,现在想要在电子游戏上扳回一局

喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。 本期 Arxiv ...

37960
来自专栏大数据文摘

GAN之父Ian Goodfellow :那个赋予机器想象力的人类

20620
来自专栏新智元

【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

来源:Reddit 作者:闻菲 【新智元导读】或许你以为搞学术做研究可以不受世俗干扰,殊不知有人在的地方就有江湖。在学术圈,跟对人或许跟做好事情一样重要...

32370
来自专栏新智元

【AI版狄仁杰】爱丁堡大学团队教AI识别犯罪剧中的罪犯,正确率达60%仍不及人类

作者:常佩琦 【新智元导读】爱丁堡大学的研究人员通过《犯罪现场调查》系列电视剧的相关视频、音频和文本训练AI,测试AI能否准确识别每集中的罪犯。在每集电视剧结束...

34750
来自专栏AI科技评论

微软为什么要用英伟达的GPU来支持CNTK?

今天下午,在北京举行的GTC CHINA 2016(GPU技术大会)中,英伟达深度学习研究院对CNTK中图像识别功能进行了简单介绍。 首先,我们来了解下CNTK...

28430
来自专栏机器之心

前沿 | 没有地图也能导航:DeepMind展示全新AI导航技术

选自DeepMind 作者:Piotr Mirowski等 机器之心编译 当前的无人驾驶汽车高度依赖于精确的地图进行导航,尽管各家科技公司已经构建了接近完美的 ...

29750
来自专栏AI派

个性化推荐系统中的绕不开的经典问题有哪些

推荐系统从诞生到现在,伴随产生了很多的问题,有一些问题有较好的解决方案,但是有的仍然没有通用的解决方案。介绍这些问题之前,先来介绍下推荐系统的预测手段。

32030
来自专栏新智元

【重磅】谷歌发布 Zero-Shot 神经机器翻译系统:AI 巴别塔有望成真(附论文)

【新智元导读】谷歌今日更新博客,介绍了谷歌神经机器翻译系统重大更新,实现了用单一模型对多语种通用表征。这种新的模型体积不仅与多语言翻译模型一样,参数相同,而且速...

51970

扫码关注云+社区

领取腾讯云代金券