VRIF最新技术指南

用户1324186

发布于 2019-05-08 15:38:22

1.5K0

发布于 2019-05-08 15:38:22

文章被收录于专栏：媒矿工厂

本文为媒矿工厂编译的技术文章

原文标题：

vrif2018.110.04-Guidelines-2.0-for-Community-Review-1

链接：

https://www.vr-if.org/wp-content/uploads/vrif2018.110.04-Guidelines-2.0-for-Community-Review-1.pdf

翻译整理：李逍

本文将对VR Industry Forum的主要内容做一个综述，在文末会附上文档的目录，具体的文件细节，可以参见上方的链接。

引言

该文档主要提出了在确保消费者VR体验的情况下，VR产品的压缩、存储和交付等整个分布式生态系统的所有方面的准则。该指南旨在提供VR内容制作和发布的最佳实践，提倡和促进整个行业使用通用配置文件，目标受众包括旨在实现VR内容分发服务部署的内容分发商，服务提供商，广播公司，移动运营商，消费电子制造商，专业设备制造商，软件开发商和技术公司。在许多情况下，工业规范比现有文档发展得更快。在技术正在开发和/或标准化的情况下，这些指南可以尽可能提供相关的标准。

本指南的主要范围包括：

制作：内容提供商与服务提供商之间使用的媒体格式的技术方面。
压缩：VR媒体内容的编码格式，比如对视频、音频等其他媒体文件用不同编码格式进行编码，同样也包括解码和渲染的过程。
存储：用于不同分发方式的VR内容的媒体格式（例如文件/分段封装），包括但不限于存储，下载，自适应码率传输和广播的存储方式。
交付：通过流媒体（单播）和广播应用实现直播，线性和VOD传送的接口和协议。
安全性：VR特定的威胁识别方法，实施安全和隐私保护功能。

VR技术

VR音视频内容的基本准则

360视频的独特性主要体现在两方面：1.由HMD产生的更广阔的视野导致的沉浸感；2.由观看者的动作产生的与观看场景之间的交互。规定常说的视频的视角区域：HMD产生的视角区域(60° to 90° per eye FOV)目前还不能覆盖到整个实际的人类的视角区域(horizontal: 190° (without eye rotation) and 220° (with eye rotation),verticle: 120° (50° upwards and 70° downwards))。而从音频的角度来看，应该在了解视觉内容的情况下制作内容，因此，应用于VR的音频创建，传输和再现方法必须能够随着动态变化的视觉角度而变化。这意味着音频必须在所有方向上同样良好地再现，允许从观看者下方或上方呈现声音，其空间精度与前方声音相同。此外，为了逼真的收听体验，音频呈现方法必须无缝地适应空间音频处理并相对于动态改变的观看者的凝视相干地重建声音场景。空间音频对于引人入胜的VR体验至关重要。它可以用作在VR场景中浸入和引导观看者的工具。即使视频内容具有有限的FOV（例如180°或270°内容），也需要全球形音频 - 因为在这些情况下，背面的人为“静音”将导致失去沉浸感和/ 或者没有暂停现实。并且该指南接下来对音频的格式、音频的记录和生产都做了相关的规定。

主要的视频格式应该具有以下特点：1. 应该为矩形投影；2. [OMAFFDIS]中描述的协调系统；3. 视频可以从多个摄像机阵列或合成图像生成；4. 图像不应显示明显的针迹线和遮挡或缺失的图像信息；5. 帧运动不应显示模糊或步进运动等运动伪影；6. 对于没有填充的完全360度视频，2：1宽高比具有属性：不允许使用Zenith或Nadir盲点。

图1.部分全景中的原数据覆盖率

该指南规定的视频内容的主要格式：包括分辨率(如下图)，视频元数据，帧率，文件格式等。音频的主要格式包括：文件格式，音频格式以及位深度和采样率等。

图2.360全景视频中的分辨率

但是同时由于HMD的沉浸性会导致环境隔离，观看者在观看360°视频时可能会感到不适。这种不适是由以下因素引起的：（a）HMD中的位置传感器受到传输系统变化的影响，导致未受刺激的视角变化（b）矢量和前庭信息之间的不相干。

本指南在视频内容的制作方面，包括视角区域，视频内容的位置，相机的运动，图片的抓取率和动作抓取的保真率，方向，感知观看者眼睛的高度，场景中的物体估计，内容的时间长短，3D立体内容，附加的安全性条款，字幕等许多有关VR视频内容的方面都有较清晰的规定。

媒体文件

自2016年初以来，MPEG一直致力于一个名为全向MediA格式（OMAF）的项目，该项目于2017年10月达到国际标准最终草案（FDIS）阶段[OMAFFDIS]，预计将于2018年作为ISO / IEC 23090-2发布。

OMAF包括两种表示视频图像中全方位场景的方式：（i）经典的“equirectangular”投影，如用于地球的地图，以及（ii）场景到立方体的面上的映射。它支持360°单视场和立体视听数据的可互操作渲染所需的元数据的信令，并为该应用提供选择的视听编码格式。它还包括以多种方式排列视频像素数据的技术，以提高压缩效率并减小视频大小，这是VR应用和服务的主要瓶颈。

视频方面，包括基于HEVC的视角自由的OMAF配置规范(如下图)，OMAF-DASH的基于视角的传输和下载客户端模型，基于HEVC的FOV提升视频配置，额外的规范，视频的质量和性能。

图3.OMAF-DASH传输客户端

音频方面：主要是基于OMA中的音频内容的规范，包括OMAF 3D音频的规范，质量和性能等。

内容安全性

在指南中，VR内容被定义为一种新的视听媒体类型，它具有传统线性视听内容的许多特征，但在很大程度上（主要是渲染和显示）有所不同。因此，指南强调了与传统视频的差异，这些差异对VR内容的保护具有重大影响。提出在VR内容上使用现有DRM的限制，允许对可能需要额外保护机制的位置做出明智的判断。特别值得关注的是未经授权的分发（通过任何手段），未经授权的修改（提供较差的体验）以及侵犯用户隐私，还有VR内容所有者可能想要控制的新使用权，例如，分辨率，输出控制或3DOF与6DOF导航的权利。还包括可能出现的问题和威胁，列出了DRM系统以及各部分平台的规范，端到端的特点及其中可以防范的地方。

VR中的文字内容

VR或者AR内容可以服务于各种各样的用户和应用领域，包括娱乐和游戏，现场直播和流媒体服务，沉浸式教育，营销和广告，工业领域以及更多的消费者应用程序等。而这些类别的内容的一些部分可能需要以一种或另一种形式呈现文本信息，- 这种用例的常见示例包括各种语言的字幕，游戏内的消息应用，营销和广告材料中的产品描述/品牌表达，以及众多文本标签和说明。

接下来该指南对文本内容的创作提出了相应的思考和规范，尤其在VR/AR中，想要添加文本或者字幕需要考虑的因素就会有很多，比如有HMD，视角的转换等等。添加的文本要能够满足观看者的需求的同时，保证不会破坏原有视频的内容。还需要的考虑文本内容的布局，文字的格式和传输机制，渲染过程以及在运行时候的环境问题，人为因素和可行性方面。

OTT下载以及VR内容的传输

这部分内容，该指南先给出了一个传输过程的例子，包括音频和视频的传输，还有相关服务提供商的规范，服务提供商希望确保设备仅下载可以解码和呈现的内容，同时能够提供最佳用户体验。对于某些项目，服务提供商希望确保在选择之后立即呈现内容，因此考虑基于DASH的流式传输。服务提供商还希望确保使用用户的可用带宽，以便以尽可能高的质量显示用户的呈现内容。

参考架构

图4 简单的VR传输服务架构

这种架构还可以加入加密服务，以进一步加强这种架构的安全性。

客户端架构：当客户端和服务端连接的时候，要尽可能的保证低延迟和质量，特别是，最新的USB 3.2规范[USB]可以提供高达20 Gbps的速度，最新的HDMI 2.1规格[HDMI]可以提供高达48 Gbps的速度，支持8K和10K分辨率，帧速率高达120 fps，后者支持VESA的显示流压缩（DSC）标准[DSC]。未来还希望无线技术也可以用于VR计算平台和VR设备之间的通信。例如，这种无线连接可以通过WiGig标准[WIGIG]接口实现，该接口使用60GHz频带进行短距离高带宽无线连接，数据速率高达7Gbps，延迟小于7ms。