PCS2018：360度全景视频流媒体传输系统【附PPT全文】

用户1324186

发布于 2018-07-26 16:53:34

2.6K0

发布于 2018-07-26 16:53:34

文章被收录于专栏：媒矿工厂

摘要

作为图像/视频编码领域的顶级会议之一，第33届图像编码研讨会（PCS，Picture Coding Symposium）于2018年6月24号至6月27号在加州旧金山召开。纽约大学工学院的Yao Wang教授做了关于360度全景视频流媒体传输系统：Two-Tier Streaming(TTS)的主题报告，介绍了360度全景视频流媒体的特点，TTS方案的技术要点，目前的实验结果以及研究展望。 360度视频及其流媒体传输简介

视频在近几年互联网和多媒体技术发展中占据着越来越重要的地位。全景360视频则是视频中较为特殊且新颖的一种类型，随着虚拟现实（VR）技术的快速发展而兴起，成为未来视频服务的新型载体。其因以用户所在的虚拟位置为球心，呈现出整个球面场景而得名。目前，360视频的流媒体传输主要有以下几种形式：1）交互式流媒体，用于视频会议、游戏等场景；2）现场直播，如体育赛事、演唱会的实时在线播放；3）流媒体点播，Youtube、Facebook等网站上的视频播放大多采用这样形式。

不同于传统2D视频，360视频可感知的分辨率范围取决于视角跨度。人眼视网膜可以区分出最高60像素每度（PPD）的分辨率。一般的HD视频具有36-100的PPD。然而，相同分辨率的360视频因其大跨度（360ox180o）的需求，PPD会降至11左右，导致用户在观看时会感受到画面模糊的现象。如果将360视频的PPD同样提升到60PPD，则其在HMD中显示需要54002~72002个像素点，形成完整全景画面需要约21600*10800个像素点（~20K），再考虑帧率、色彩等因素，这种理想条件的视频播放会消耗2.35Gbps的带宽。

此外，360视频是在视场（FoV）跟踪的基础上进行播放的，因而引入了运动-图像（MTP）形式的延迟。作为一种沉浸式的体验，这种延迟不应高于20ms，具体而言，其图像渲染和传输延迟均不应高于10ms。在理想状态下，总延迟应降至10ms甚至更低。然而在现有的传输环境下，360视频的平均传输带宽只能达到18.7Mbps，播放延迟为80ms，与最终目标还有很大的差距，因而360视频流媒体传输对于相关领域的研究人员来说仍是一个巨大的挑战。 Two-Tier Streaming概要

对于基于DASH的2D视频流媒体点播，视频首先从时间上被分为多个子片段，并以多个分辨率版本存储于服务器。客户端则根据网络吞吐量和缓冲区长度请求所需数据。其中，客户端存在一个预提取的操作，其可以检测网络变化并应对突发情况，是较为关键的一个环节。

对于360视频，由于用户只能观看到FoV中的场景，因而目前的各类360视频流媒体解决方案大多通过传输当前和预测FoV对应画面的形式，而不再传输完整的全景内容，以减少带宽浪费，提高传输效率。然而，目前的FoV预测仍会引起预测偏差和卡顿的问题。

Yao Wang教授报告提到，华为和NYU Wireless团队共同完成的Two-Tier 360V Streaming系统则结合了预提取与FoV预测过程，对360视频传输做了以下改进：

双层编码：
基础层（BT）数据：包含低质量的完整360场景
增强层（ET）数据：包含多视角的多种比特率场景
双层传输：
利用长预提取缓冲区（10-20s）下载BT数据
利用短预提取缓冲区下载基于FoV预测的ET数据
双层渲染：
如ET数据与实际FoV匹配，则对FoV渲染高质量视频
否则，利用BT数据对FoV渲染低质量视频

基础层主要针对网络与视角的动态特性提供良好的鲁棒性。

数据区分与编码：
未重叠区域编码：无存储冗余，低编码效率
重叠区域编码：高存储冗余，高编码效率

BT与ET数据间的分层/非分层编码方式实际上是寻求编码效率与复杂度平衡点的问题。 系统关键技术

作为一个标准的流媒体传输系统，TTS主要包含以下关键问题或技术：

速率分配：如何设置两个层在传输中的速率？
传输决策：两层缓冲区各为多长？下载/提取哪部分数据？
多目标优化：基于网络与FoV动态特性的视频质量、连续性、响应性

在TTS中，渲染后的视频总质量取决于BT/ET层质量以及FoV预测吻合率、数据块传输速率。在前述参数确定的情况下，视频质量仅为各层比特率的函数，根据导数条件也就是图像质量最优条件，可以得到两种比特率的关系，便达到了速率分配优化的效果。而在比特率确定，、待定的条件下，该团队通过一系列控制变量的测试得出了如下结论：为获得最优视频质量，与的乘积应为最大。

为获取初步结果，研究团队采用了传输完整360度内容的Benchmark System 1（BS1）和仅传输经线性预测的FoV对应内容的Benchmark System 2（BS2）作为对比。在相同的测试条件（5G WiGig网络，多类型场景等）下，TTS相比于BS1具有更高的视频渲染率(VRR)，不同网络情况下可以提高275%-470%不等，同时卡顿率相差无几；相比于BS2，其具有同样级别的VRR，而卡顿率可以下降2%-21%不等。此外，随着传输环境的恶化，上节提到的TTS最优值会降低，系统将分配给BT层更多的带宽。速率分配和缓冲区优化均可以提升用户体验质量（QoE）。

TTS中设置了FoV校正步骤，即对于即将播放的画面进行二次预测，以弥补图像缺失部分，由此提升的效果取决于校正范围和校正预留时间。对于流媒体点播而言，每个数据块可以包含经预测得到的未来视频片段，同时应尽可能地提前抽取出播放部分。

然而现有的FoV预测方法还难以实现长间隔（数秒）的准确预测效果，主要有以下几种：

仅利用用户过去的FoV轨迹
同时利用视频内容和过去的轨迹
采用目标用户的过去轨迹以及其他用户的已知完整轨迹
嵌入机器学习

测试结果显示，利用多用户轨迹完成的预测比单用户轨迹预测的效果更好，且随预测间隔的增大，提升的准确度越高，最高可达8%左右。

360视频流媒体传输中的另一个关键问题是传输决策，合理的传输方案可以有效减缓网络负担，同时保证良好的QoE。对于TTS，基于数据块的传输决策主要体现在：

当一个数据块到达时
下一数据块的类型：BT/ET?
BT/ET块的比特率/质量水平及其对应的FoV
过程简化
FoV预测的独立性
传输决策仅为数据块提取与速率选择提供服务

在TTS中，数据块的抽取问题被看作是一个强化学习的过程。该过程主要考虑到速率与网络性能的平衡以及各决策对于未来的影响程度，而各类状态如缓冲区大小、吞吐量、视频质量等可以看作不同的变量进行优化。在二维视频传输中，已有深度强化学习方法采用了基于QoE指标的神经网络模型，并构建了校正网络（Critic Network）和动作网络（Actor Network）以共同完成传输决策。实际上，类似的方法也可移植到TTS上，但这种移植应考虑到TTS的额外状态变量如BT/ET的缓冲区和比特率，以及更复杂的反馈机制。 总结与展望

360全景视频的诞生为视频编码/传输领域带来了许多新的挑战。在编码与传输紧密结合的基础上，Yao Wang教授的研究团队构建了一套360视频流媒体传输系统-TTS，其双层处理的概念便于码率分配、质量优化、传输决策等后续过程，同时在视频渲染率、卡顿率等指标上有明显的提升，对于网络和FoV的动态特点具有良好的鲁棒性。

360全景视频流媒体传输三种应用场景的约束各不相同，TTS主要针对流媒体点播的形式进行了改善，当应用至交互式与直播场景时，还应考虑到随机性、实时性、准确性、多路性方面更严格的要求。 报告PPT全文：