VRIF最新技术指南

本文为媒矿工厂编译的技术文章

原文标题

vrif2018.110.04-Guidelines-2.0-for-Community-Review-1

链接

https://www.vr-if.org/wp-content/uploads/vrif2018.110.04-Guidelines-2.0-for-Community-Review-1.pdf

翻译整理:李逍

本文将对VR Industry Forum的主要内容做一个综述,在文末会附上文档的目录,具体的文件细节,可以参见上方的链接。

引言

该文档主要提出了在确保消费者VR体验的情况下,VR产品的压缩、存储和交付等整个分布式生态系统的所有方面的准则。该指南旨在提供VR内容制作和发布的最佳实践,提倡和促进整个行业使用通用配置文件,目标受众包括旨在实现VR内容分发服务部署的内容分发商,服务提供商,广播公司,移动运营商,消费电子制造商,专业设备制造商,软件开发商和技术公司。在许多情况下,工业规范比现有文档发展得更快。在技术正在开发和/或标准化的情况下,这些指南可以尽可能提供相关的标准。

本指南的主要范围包括:

  • 制作:内容提供商与服务提供商之间使用的媒体格式的技术方面。
  • 压缩:VR媒体内容的编码格式,比如对视频、音频等其他媒体文件用不同编码格式进行编码,同样也包括解码和渲染的过程。
  • 存储:用于不同分发方式的VR内容的媒体格式(例如文件/分段封装),包括但不限于存储,下载,自适应码率传输和广播的存储方式。
  • 交付:通过流媒体(单播)和广播应用实现直播,线性和VOD传送的接口和协议。
  • 安全性:VR特定的威胁识别方法,实施安全和隐私保护功能。

VR技术

VR音视频内容的基本准则

360视频的独特性主要体现在两方面:1.由HMD产生的更广阔的视野导致的沉浸感;2.由观看者的动作产生的与观看场景之间的交互。规定常说的视频的视角区域:HMD产生的视角区域(60° to 90° per eye FOV)目前还不能覆盖到整个实际的人类的视角区域(horizontal: 190° (without eye rotation) and 220° (with eye rotation),verticle: 120° (50° upwards and 70° downwards))。而从音频的角度来看,应该在了解视觉内容的情况下制作内容,因此,应用于VR的音频创建,传输和再现方法必须能够随着动态变化的视觉角度而变化。这意味着音频必须在所有方向上同样良好地再现,允许从观看者下方或上方呈现声音,其空间精度与前方声音相同。此外,为了逼真的收听体验,音频呈现方法必须无缝地适应空间音频处理并相对于动态改变的观看者的凝视相干地重建声音场景。空间音频对于引人入胜的VR体验至关重要。它可以用作在VR场景中浸入和引导观看者的工具。即使视频内容具有有限的FOV(例如180°或270°内容),也需要全球形音频 - 因为在这些情况下,背面的人为“静音”将导致失去沉浸感和/ 或者没有暂停现实。并且该指南接下来对音频的格式、音频的记录和生产都做了相关的规定。

主要的视频格式应该具有以下特点:1. 应该为矩形投影;2. [OMAFFDIS]中描述的协调系统;3. 视频可以从多个摄像机阵列或合成图像生成;4. 图像不应显示明显的针迹线和遮挡或缺失的图像信息;5. 帧运动不应显示模糊或步进运动等运动伪影;6. 对于没有填充的完全360度视频,2:1宽高比具有属性:不允许使用Zenith或Nadir盲点。

图1.部分全景中的原数据覆盖率

该指南规定的视频内容的主要格式:包括分辨率(如下图),视频元数据,帧率,文件格式等。音频的主要格式包括:文件格式,音频格式以及位深度和采样率等。

图2.360全景视频中的分辨率

但是同时由于HMD的沉浸性会导致环境隔离,观看者在观看360°视频时可能会感到不适。这种不适是由以下因素引起的:(a)HMD中的位置传感器受到传输系统变化的影响,导致未受刺激的视角变化(b)矢量和前庭信息之间的不相干。

本指南在视频内容的制作方面,包括视角区域,视频内容的位置,相机的运动,图片的抓取率和动作抓取的保真率,方向,感知观看者眼睛的高度,场景中的物体估计,内容的时间长短,3D立体内容,附加的安全性条款,字幕等许多有关VR视频内容的方面都有较清晰的规定。

媒体文件

自2016年初以来,MPEG一直致力于一个名为全向MediA格式(OMAF)的项目,该项目于2017年10月达到国际标准最终草案(FDIS)阶段[OMAFFDIS],预计将于2018年作为ISO / IEC 23090-2发布。

OMAF包括两种表示视频图像中全方位场景的方式:(i)经典的“equirectangular”投影,如用于地球的地图,以及(ii)场景到立方体的面上的映射。它支持360°单视场和立体视听数据的可互操作渲染所需的元数据的信令,并为该应用提供选择的视听编码格式。它还包括以多种方式排列视频像素数据的技术,以提高压缩效率并减小视频大小,这是VR应用和服务的主要瓶颈。

视频方面,包括基于HEVC的视角自由的OMAF配置规范(如下图),OMAF-DASH的基于视角的传输和下载客户端模型,基于HEVC的FOV提升视频配置,额外的规范,视频的质量和性能。

图3.OMAF-DASH传输客户端

音频方面:主要是基于OMA中的音频内容的规范,包括OMAF 3D音频的规范,质量和性能等。

内容安全性

在指南中,VR内容被定义为一种新的视听媒体类型,它具有传统线性视听内容的许多特征,但在很大程度上(主要是渲染和显示)有所不同。因此,指南强调了与传统视频的差异,这些差异对VR内容的保护具有重大影响。提出在VR内容上使用现有DRM的限制,允许对可能需要额外保护机制的位置做出明智的判断。特别值得关注的是未经授权的分发(通过任何手段),未经授权的修改(提供较差的体验)以及侵犯用户隐私,还有VR内容所有者可能想要控制的新使用权,例如,分辨率,输出控制或3DOF与6DOF导航的权利。还包括可能出现的问题和威胁,列出了DRM系统以及各部分平台的规范,端到端的特点及其中可以防范的地方。

VR中的文字内容

VR或者AR内容可以服务于各种各样的用户和应用领域,包括娱乐和游戏,现场直播和流媒体服务,沉浸式教育,营销和广告,工业领域以及更多的消费者应用程序等。而这些类别的内容的一些部分可能需要以一种或另一种形式呈现文本信息,- 这种用例的常见示例包括各种语言的字幕,游戏内的消息应用,营销和广告材料中的产品描述/品牌表达,以及众多文本标签和说明。

接下来该指南对文本内容的创作提出了相应的思考和规范,尤其在VR/AR中,想要添加文本或者字幕需要考虑的因素就会有很多,比如有HMD,视角的转换等等。添加的文本要能够满足观看者的需求的同时,保证不会破坏原有视频的内容。还需要的考虑文本内容的布局,文字的格式和传输机制,渲染过程以及在运行时候的环境问题,人为因素和可行性方面。

OTT下载以及VR内容的传输

这部分内容,该指南先给出了一个传输过程的例子,包括音频和视频的传输,还有相关服务提供商的规范,服务提供商希望确保设备仅下载可以解码和呈现的内容,同时能够提供最佳用户体验。对于某些项目,服务提供商希望确保在选择之后立即呈现内容,因此考虑基于DASH的流式传输。服务提供商还希望确保使用用户的可用带宽,以便以尽可能高的质量显示用户的呈现内容。

参考架构

分发结构:下图考虑了功能架构,VR内容由VR内容提供商捕获,并在接口中以Bv为视频Ba为音频分割。两种媒体都带有元数据,在时间上同步并在3D空间中对齐。内容将上载到存储原始素材的VR服务提供商门户。然后准备内容以通过指南v2.0 49版权所有2019©VR行业论坛公共预览处理,编码和文件格式/ DASH封装。接口Da和Dv提供的格式允许现有媒体编码器进行编码。

图4 简单的VR传输服务架构

这种架构还可以加入加密服务,以进一步加强这种架构的安全性。

客户端架构:当客户端和服务端连接的时候,要尽可能的保证低延迟和质量,特别是,最新的USB 3.2规范[USB]可以提供高达20 Gbps的速度,最新的HDMI 2.1规格[HDMI]可以提供高达48 Gbps的速度,支持8K和10K分辨率,帧速率高达120 fps,后者支持VESA的显示流压缩(DSC)标准[DSC]。未来还希望无线技术也可以用于VR计算平台和VR设备之间的通信。例如,这种无线连接可以通过WiGig标准[WIGIG]接口实现,该接口使用60GHz频带进行短距离高带宽无线连接,数据速率高达7Gbps,延迟小于7ms。

图5.客户端处理架构

该架构中的各个接口规则等都有较清晰的规定和规范,为行业提供了一定的参考性。

技术可行性

这部分主要介绍了想要达到符合人们期望的VR音视频的基本规范,包括要有合适的媒体配置文件,分发协议,分发系统,还有CDN方面的考虑等等。

服务提供商的基本准则

服务提供商方面包括基于HEVC的视口独立OMAF视频配置文件,基于HEVC的视口依赖OMAF视频配置文件,OMAF 3D音频基线媒体配置文件,球到纹理映射和SEI消息生成,编码和内容准备,分发(下图为一个视频流的分发示例),加密安全等,对这些方面都进行了较详细的定义和规定。

图6.多个版本视频资源传输给相应用户

服务平台开发者的基本准则

OMAF主要描述了从解码器输出纹理信息转换为3D /球形视频的元数据。媒体解码器对基本媒体流进行解码。基本流包含等效的渲染元数据,并且可以使用。

图8显示了一个有更多细节的流程图,又包括基于视点的处理,可以进一步有效的利用资源,提高输出效率。

图7.逻辑接收模型

图8.渲染和视口生成

接下来介绍了基于SEI信息的渲染过程以及分发和传输方面的考虑。

App开发者的基本准则

App中的配置文件应该包含OMAF元数据的功能以及服务平台可用的API,该部分中也包含的是分发传输和编码渲染等要求,同时对API中的DASH和媒体引擎做了较详细的解释和规范。

实时VR内容传输

这部分内容结构和上一章的内容十分相像,先是给出一个整体的案例,然后根据案例中的结构逐个分析,但由于技术不成熟,所以后面的规范也没有给出。该案例主要是有关VR直播的,整套流程包括内容获取、转换、分发和传输,如下图所示,

图9.电视VR直播流程

为了便于向更广泛的受众采用VR服务,该用例还考虑将VR内容分发到2D显示器,例如平板电脑,智能手机,可能的机顶盒甚至智能电视。在平板电脑和智能手机的情况下,通过触摸屏幕或移动设备来控制视口等等。

接下来,该协议对VR直播中的技术可行性、VR内容生产者的基本准则、服务提供商的基本准则、服务平台开发者的基本准则、应用开发的基本准则等都没有做出规定,主要是由于该领域目前还处于发展过程中,许多知识和设备还不完备,所以目前还没有做出相应的规范。

附录部分是一些VR元数据的主要格式,ISO BMFF规范以及一个基于FOV可用tile传输的DASH manifest的文件示例。

vrif2018.110.04的完整目录:

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2019-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券