Facebook VR方案总结(二)

前言

VR技术是目前最受关注的前沿科技之一,受到了各家互联网公司的青睐,但这并不是首次。实际上,VR在发展史上经历了三次热潮。第一次热潮发生在上个世纪60年代,出现了第一个计算机图像驱动的头戴式显示设备以及头部位置跟踪系统,是VR发展历史上的一个重要里程碑。第二次热潮发生在上个世纪90年代,3D游戏的上市使得VR技术关注度剧增,但由于当时VR技术尚不成熟,游戏画质差价格高,因而这一次的VR热潮就此消退。到2014年,Facebook公司收购Oculus后,VR热潮再度袭来,Facebook创始人在中国发展高层论坛中说道2016年将成为消费者VR之年,并且,在2017年4月底的Facebook F8大会上,Facebook甚至表示未来VR设备可以直接取代智能手机。

  • Facebook全景媒体应用框架

无论是VR社交还是VR游戏,这些仅仅是Facebook的VR展现形式而已,而支撑VR应用的核心是一个支持全景媒体的数字通信架构。这与MPEG OMAF架构类似,Facebook在全景媒体的应用架构中的从媒体获取到渲染播放端的关键技术如下图1所示。

图1 Facebook的全景视频关键技术示意图

  • 基于Surround360相机的视频获取与拼接

全景媒体应用框架的输入是对360视频的获取模块,Facebook在2016年发布了Surround360摄像机,并且将硬件设计和图像拼接代码开源到网上。如图2所示,Surround360是一个高品质的3D全景视频采集系统,可以生成真正的球面VR效果,并且内部配有拼接软件,大大减少了后期制作的难度。Surround360由环绕360度的17台摄像机组成,它将拍摄到的多路视频进行拼接并将其转换成适合于VR观看的立体360全景。

图2 Surround360基本构造

对于一个360度的视频,它在拼接时存在很多传统2D视频没有的困难,比如,多路摄像机产生的海量数据处理,人眼视觉对3D视频拼接的错误的低容忍度,以及运用到实践中所要求的处理时间效率。在拼接模块,Surround360采用了基于光流的算法,用光流来计算左右眼立体视差,对左眼和右眼分别合成对应视角方向的虚拟摄像机的新视图,然后再将左右眼的视图重新组合。这种方法可以捕捉场景的运动,以达到远胜于普通拼接的无缝立体效果。拼接后的输出为每只眼睛提供4K,6K和8K视频,其中8K视频已经超过业界的标准输出,保证了最佳的观看体验。内部的拼接系统也节省了后期制作时间,在效率上提供了保障。

  • 正六面体映射方式

Surround360将多路相机拍摄到的视频以经纬图映射的方法为输出,而对于360度视频,如果用这种传统的映射方式来呈现,则会在顶上与底下两部分包含较多的冗余信息,且呈现效果较为扭曲,不符合人眼视觉习惯。Facebook在映射方式上选择了正六面体的方法,将经纬图的布局重新映射到正六面体上[1],如图3所示,正六面体是六面正方形的集合,属于视角独立的映射格式。

图3 正六面体映射方式示意图

正六面体映射方法有很多的优点,比如在立方体的每一个面上没有任何失真,每一面的映射都是相对独立的。其次,视频编解码器中运动矢量为直线形式,正六面体不会像经纬图方法那样将图像扭曲,因此这种映射方式对编解码器非常友好。此外,它的像素点分布较为均匀,不包含冗余信息。在Facebook的方案中,为了实现从经纬图方法为显示到立方体映射的转换,它创建了一个自定义的视频过滤器,使用多点投影的方式来进行二者之间的像素点切换。这套方案通过将经纬图视频的顶部的25%转换为一个立方体面,将底部的25%转换为另一个立方体面,中间的50%转换为四个立方体面。这样,正六面体的输出包含与经纬图输入相同的信息,但每帧的像素数量减少了25%,提高了空间的效率[2]。

  • 金字塔模型

金字塔模型是一个与视角依赖的立体映射模型,它的底部为用户视角区域的全分辨率视频,随着金字塔高度的上升,在金字塔其他面上的视频压缩率逐渐增加。当用户切换视角时,用户看到的不是该金字塔其他表面的低质量视频,而是切换到以下一视角为底部全分辨率的金字塔模型。如图4所示,Facebook采用金字塔映射模型可以对文件进行压缩,能够将全景视频文件压缩到原来的20%[3]。

图4 金字塔映射模型

在Facebook的方案中,一个经纬图的输出将被转换为30个视角的金字塔模型,基本能覆盖整个全景视频的各个视角空间。每一个金字塔有五种不同的分辨率版本,因此,对于一个全景视频,一共有150个不同版本的编码流可以根据情况而选择。

此外,为了在合理的时间内处理海量数据的全景视频,Facebook也使用了分布式编码,在多台机器上编码不同的视频分块。

  • 动态流传输技术

在全景视频的传输方面,Facebook在2016年1月提出了动态流技术。由于有限的网络带宽与计算能力的限制,传递超大数据规模的全景视频会造成缓冲或者中断等问题。Facebook针对这些难题,与MPEG OMAF的思想类似,提出了基于视角的自适应比特流技术,在视觉感兴趣的区域提供最高质量的视频,同时降低外围背景的视频质量,因此它在缩小比特率的同时,保证视角区域的观看质量。在客户端对于下一个视频块的选择,针对目前的网络条件以及综合分辨率,视频质量,当前视角方向等元素,可以考虑数十种不同的可能的流来呈现。其次,在传输中服务端需要频繁的更新网络状况,以更短的时间估计网络带宽,这样能保证系统能做到及时调整,避免缓冲延迟的发生。此外,在DASH通过HTTP传输自适应流时,流通常包含两个特定块:初始化块和索引块。其中,初始化块包含为每个媒体块添加的编解码器的初始化数据,索引块包含搜索映射和表示中每个块的确切字节范围数据。如果要切换到新流,这两个块的信息是必需的。Facebook在传输方案上,在DASH的list中为所有动态流媒体流在后台预取这两者,因此,只要播放器需要切换到新的流,就无需花费时间来重新获取,这样提高了时间效率。

然而,若服务器端不知道用户的当前视角方向,如何进行自适应流的切换呢?Facebook基于这种情形开发了基于内容的动态流技术[4],它主要是依靠人工智能(AI)给出的显著图数据来实现的,它利用显著图的统计数据计算出观看者可能的关注点和感兴趣点。在处理完视频的每一帧后,客户端会收到一个单个流的视频,它在感兴趣区域提供高质量,而无需用户去选择码流,所以被称为是基于内容的流技术。

与基于视角的流传输技术,基于内容的码流传输技术有以下优势:首先在功能上,它可以支持流的缓冲、下载和离线播放;其次,它允许长视频段或者更少的关键帧被一次性传送,从而降低比特率并改善压缩;由于不需要用户切换流,所以它没有分辨率的跳转,从而简化播放。

目前,对于全景视频的动态流传输技术已经成功的运用在了多个厂家的VR设备上。

  • 终端可穿戴式设备

Oculus Rift是Facebook目前的主流头显产品,它以较大的视场角和较高的分辨率的优势减少了画面延迟和避免了晕动症。目前,已经有多款应用和游戏登陆Oculus Rift。而Facebook创始人称,Oculus Rift将从“沉浸式游戏”开始,最终扩张到其他的体验平台,比如远程教育或者活动的“现场”体验。此外,凭借Facebook广阔的社交平台,很有可能将会开启一个数字交流的新时代。

图5 左为Oculus Rift,中为Oculus Go,右为Santa Cruz控制器

此外,Facebook近日还公布了VR一体机Oculus Go,最新VR一体机原型Santa Cruz、软件更新和内容布局等。其中,Oculus Go使用贴合脸部的网状织物和弹性绑带,采用全新光学设计,FOV与Rift一样,眩光大幅减少。在显示方面,Oculus Go采用fast-switch LCD屏幕,清晰度得以提升,纱门效应有所减少。除此之外,Oculus Go支持内置空间音频体验,并兼容Gear VR应用。新一代原型机Santa Cruz加入了6 DOF动作控制,这款控制器具备手柄按键和触控板,内建四个超轻量的感应器,具备完全inside-out追踪能力。

在软件方面,Oculus公布了Rift Core 2.0,主要包括引入为Oculus Touch设计的Oculus Dash系统UI和全新的Oculus Home系统。Oculus Dash系统在底部提供可以滚动的程序菜单,还支持无限的显示屏,Oculus表示未来这有望替代实体显示屏。全新的Oculus Home系统允许用户自定义自己的首空间,首空间改善了光照和阴影效果,带来更逼真的环境体验。

与此同时,Facebook还推出与更新了很多VR应用与功能,如Spaces, D Posts, Venues等,为VR技术拓展到社交、视频直播、商业市场等平台提供了媒介。

继 2014 年Oculus Rift DK1实现开源之后,现在Oculus又公布了Oculus Rift开源计划,在获得开源授权之后,任何人都可以从 GitHub 上免费下载Oculus Rift DK2的开源文档[5]。Oculus Rift DK2的开源文档包括工程原理图、电路板设计、CAD图纸、Creative Commons Attribution 4.0协议、BSD+PATENT 许可下的固件。

总结

总的来说,全景媒体应用框架的讨论、制定和完善是一个具有挑战性的课题。Facebook作为创新性科技公司,主要以产品为核心,技术为支持,在系统实现中去优化相应的关键技术点,使系统更加完善,更加符合市场需求。目前,在VR应用领域还存在一些技术挑战。8K甚至更大分辨率的全景视频对于网络带宽提出了高难度的需求;随着全景媒体直播技术的发展,延迟将是影响用户体验的一个重要参数;终端显示设备的解码能力也决定了用户观看效果的好坏。这些关键技术的研究将对今后虚拟现实技术的发展具有十分重要的研究意义和应用价值。尽管目前Facebook的VR技术在游戏、社交等领域发展迅速,但它内部的系统结构仍需要继续细化和完善,全景多媒体应用的发展还处于起步阶段。如今,越来越多的组织和企业都加入到制定VR行业标准的队伍中,提供了新的思考和方法,因此值得展开更为深入的研究。

参考文献

[1] Evgeny Kuzyakov and David Pio. Under the hood: Building 360 video[EB/OL]. https://code.facebook.com/posts/1638767863078802/under-the-hood-building-360-video/, 2015-10-15.

[2] Fautier T. VR video ecosystem for live distribution[C]// IBC 2016 Conference. 2016:28 (13. )-28 (13. ).

[3] Evgeny Kuzyakov and David Pio. Next-generation video encoding techniques for 360 video and VR[EB/OL]. https://code.facebook.com/posts/1126354007399553/next-generation-video-encoding-techniques-for-360-video-and-vr/, 2016-1-21.

[4] Evgeny Kuzyakov, Jiannan Chen, Renbin Peng. Enhancing high-resolution 360 streaming with view prediction[EB/OL]. https://code.facebook.com/posts/118926451990297/enhancing-high-resolution-360-streaming-with-view-prediction/, 2016-4-9.

[5] Nirav Patel, et. al. Oculus Rift Development Kit 2[EB/OL]. https://github.com/facebookarchive/riftdk2, 2017-10-9.

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

微软翻译使用AI来打破智能手机上的语言翻译障碍

微软将其神经网络翻译技术融入缺乏AI硬件的智能手机,该应用程序现在可以为iOS、安卓和亚马逊Fire设备提供更高质量的神经网络翻译服务。

1072
来自专栏互联网数据官iCDO

如何利用有限的转化数据制定明智的付费搜索竞价策略

严小鳙、朱玉雪,iCDO翻译志愿者。 前言:专栏作家Mark Ballard接下来将带我们了解,在制定AdWords关键词竞价策略时,如何通过统计学原理来支持...

1867
来自专栏大数据和云计算技术

Spark云服务进展 (Databricks Runtime 3.0)

Databricks是spark商业孵化公司,主要做的工作是在AWS上提供SaaS化的spark服务。最近在databricks博客上公布了做的一些有意思的进展...

2857
来自专栏BestSDK

Oculus PC SDK新增NVIDIA镜头匹配底纹,减少像素渲染

Oculus PC SDK版本1.19现在支持NVIDIA的VRWorks Lens Matched Shading(LMS)技术,在支持的GPU上提供“性能提...

865
来自专栏互联网数据官iCDO

分析Facebook上的视频广告的三种思路

译者:李子怡 你的Facebook营销战略中有视频的一席之地吗? 想了解在Facebook中视频如何为你服务吗? 想在FB上制定合理的视频投放决策,就要先弄清楚...

4238
来自专栏进击的程序猿

码农英语进击之路 day1 三星手机炸炸炸

scrap a car :汽车报废 flagship:旗舰 rival:竞争 stunning:褒义词很漂亮,也可以中性词令人震惊的 setback:挫...

773
来自专栏媒矿工厂

全景媒体的系统架构研究综述

1932
来自专栏大数据挖掘DT机器学习

【观点】浅谈网络数据挖掘

人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪里浏览时间最多,用了哪个搜索项、总体浏览时间、个人姓名和住址等。所有这些信息都被...

2813
来自专栏织云平台团队的专栏

十亿元背后的价值

2487
来自专栏Python中文社区

Python告诉你iPhone X有多热卖

專 欄 ❈强哥,Python中文社区专栏作者,曾供职于摩根士丹利(Morgan Stanley)和eBay。❈ 我们用Python来爬取淘宝店...

18410

扫描关注云+社区