PCS2018:360度全景视频流媒体传输系统【附PPT全文】

摘要

作为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州旧金山召开。纽约大学工学院的Yao Wang教授做了关于360度全景视频流媒体传输系统:Two-Tier Streaming(TTS)的主题报告,介绍了360度全景视频流媒体的特点,TTS方案的技术要点,目前的实验结果以及研究展望。 360度视频及其流媒体传输简介

视频在近几年互联网和多媒体技术发展中占据着越来越重要的地位。全景360视频则是视频中较为特殊且新颖的一种类型,随着虚拟现实(VR)技术的快速发展而兴起,成为未来视频服务的新型载体。其因以用户所在的虚拟位置为球心,呈现出整个球面场景而得名。目前,360视频的流媒体传输主要有以下几种形式:1)交互式流媒体,用于视频会议、游戏等场景;2)现场直播,如体育赛事、演唱会的实时在线播放;3)流媒体点播,Youtube、Facebook等网站上的视频播放大多采用这样形式。

不同于传统2D视频,360视频可感知的分辨率范围取决于视角跨度。人眼视网膜可以区分出最高60像素每度(PPD)的分辨率。一般的HD视频具有36-100的PPD。然而,相同分辨率的360视频因其大跨度(360ox180o)的需求,PPD会降至11左右,导致用户在观看时会感受到画面模糊的现象。如果将360视频的PPD同样提升到60PPD,则其在HMD中显示需要54002~72002个像素点,形成完整全景画面需要约21600*10800个像素点(~20K),再考虑帧率、色彩等因素,这种理想条件的视频播放会消耗2.35Gbps的带宽。

此外,360视频是在视场(FoV)跟踪的基础上进行播放的,因而引入了运动-图像(MTP)形式的延迟。作为一种沉浸式的体验,这种延迟不应高于20ms,具体而言,其图像渲染和传输延迟均不应高于10ms。在理想状态下,总延迟应降至10ms甚至更低。然而在现有的传输环境下,360视频的平均传输带宽只能达到18.7Mbps,播放延迟为80ms,与最终目标还有很大的差距,因而360视频流媒体传输对于相关领域的研究人员来说仍是一个巨大的挑战。 Two-Tier Streaming概要

对于基于DASH的2D视频流媒体点播,视频首先从时间上被分为多个子片段,并以多个分辨率版本存储于服务器。客户端则根据网络吞吐量和缓冲区长度请求所需数据。其中,客户端存在一个预提取的操作,其可以检测网络变化并应对突发情况,是较为关键的一个环节。

对于360视频,由于用户只能观看到FoV中的场景,因而目前的各类360视频流媒体解决方案大多通过传输当前和预测FoV对应画面的形式,而不再传输完整的全景内容,以减少带宽浪费,提高传输效率。然而,目前的FoV预测仍会引起预测偏差和卡顿的问题。

Yao Wang教授报告提到,华为和NYU Wireless团队共同完成的Two-Tier 360V Streaming系统则结合了预提取与FoV预测过程,对360视频传输做了以下改进:

  • 双层编码:
  • 基础层(BT)数据:包含低质量的完整360场景
  • 增强层(ET)数据:包含多视角的多种比特率场景
  • 双层传输:
  • 利用长预提取缓冲区(10-20s)下载BT数据
  • 利用短预提取缓冲区下载基于FoV预测的ET数据
  • 双层渲染:
  • 如ET数据与实际FoV匹配,则对FoV渲染高质量视频
  • 否则,利用BT数据对FoV渲染低质量视频

基础层主要针对网络与视角的动态特性提供良好的鲁棒性。

  • 数据区分与编码:
  • 未重叠区域编码:无存储冗余,低编码效率
  • 重叠区域编码:高存储冗余,高编码效率

BT与ET数据间的分层/非分层编码方式实际上是寻求编码效率与复杂度平衡点的问题。 系统关键技术

作为一个标准的流媒体传输系统,TTS主要包含以下关键问题或技术:

  • 速率分配:如何设置两个层在传输中的速率?
  • 传输决策:两层缓冲区各为多长?下载/提取哪部分数据?
  • 多目标优化:基于网络与FoV动态特性的视频质量、连续性、响应性

在TTS中,渲染后的视频总质量取决于BT/ET层质量以及FoV预测吻合率 、数据块传输速率 。在前述参数确定的情况下,视频质量仅为各层比特率的函数,根据导数条件也就是图像质量最优条件,可以得到两种比特率的关系,便达到了速率分配优化的效果。而在比特率确定, 、 待定的条件下,该团队通过一系列控制变量的测试得出了如下结论:为获得最优视频质量, 与 的乘积应为最大。

为获取初步结果,研究团队采用了传输完整360度内容的Benchmark System 1(BS1)和仅传输经线性预测的FoV对应内容的Benchmark System 2(BS2)作为对比。在相同的测试条件(5G WiGig网络,多类型场景等)下,TTS相比于BS1具有更高的视频渲染率(VRR),不同网络情况下可以提高275%-470%不等,同时卡顿率相差无几;相比于BS2,其具有同样级别的VRR,而卡顿率可以下降2%-21%不等。此外,随着传输环境的恶化,上节提到的TTS最优 值会降低,系统将分配给BT层更多的带宽。速率分配和缓冲区优化均可以提升用户体验质量(QoE)。

TTS中设置了FoV校正步骤,即对于即将播放的画面进行二次预测,以弥补图像缺失部分,由此提升的效果取决于校正范围和校正预留时间。对于流媒体点播而言,每个数据块可以包含经预测得到的未来视频片段,同时应尽可能地提前抽取出播放部分。

然而现有的FoV预测方法还难以实现长间隔(数秒)的准确预测效果,主要有以下几种:

  • 仅利用用户过去的FoV轨迹
  • 同时利用视频内容和过去的轨迹
  • 采用目标用户的过去轨迹以及其他用户的已知完整轨迹
  • 嵌入机器学习

测试结果显示,利用多用户轨迹完成的预测比单用户轨迹预测的效果更好,且随预测间隔的增大,提升的准确度越高,最高可达8%左右。

360视频流媒体传输中的另一个关键问题是传输决策,合理的传输方案可以有效减缓网络负担,同时保证良好的QoE。对于TTS,基于数据块的传输决策主要体现在:

  • 当一个数据块到达时
  • 下一数据块的类型:BT/ET?
  • BT/ET块的比特率/质量水平及其对应的FoV
  • 过程简化
  • FoV预测的独立性
  • 传输决策仅为数据块提取与速率选择提供服务

在TTS中,数据块的抽取问题被看作是一个强化学习的过程。该过程主要考虑到速率与网络性能的平衡以及各决策对于未来的影响程度,而各类状态如缓冲区大小、吞吐量、视频质量等可以看作不同的变量进行优化。在二维视频传输中,已有深度强化学习方法采用了基于QoE指标的神经网络模型,并构建了校正网络(Critic Network)和动作网络(Actor Network)以共同完成传输决策。实际上,类似的方法也可移植到TTS上,但这种移植应考虑到TTS的额外状态变量如BT/ET的缓冲区和比特率,以及更复杂的反馈机制。 总结与展望

360全景视频的诞生为视频编码/传输领域带来了许多新的挑战。在编码与传输紧密结合的基础上,Yao Wang教授的研究团队构建了一套360视频流媒体传输系统-TTS,其双层处理的概念便于码率分配、质量优化、传输决策等后续过程,同时在视频渲染率、卡顿率等指标上有明显的提升,对于网络和FoV的动态特点具有良好的鲁棒性。

360全景视频流媒体传输三种应用场景的约束各不相同,TTS主要针对流媒体点播的形式进行了改善,当应用至交互式与直播场景时,还应考虑到随机性、实时性、准确性、多路性方面更严格的要求。 报告PPT全文:

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-07-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC和DSP

选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:Rick R、吴攀 在这篇文章中,作者Eugenio Culurciel...

353100
来自专栏华章科技

揭秘47万微信群和2亿微信用户背后的数字规律

微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香...

8510
来自专栏ATYUN订阅号

谷歌发布自己的前端机器学习库——deeplearn.js

目前看来,在人工智能时代,不管是手机、汽车,还是音箱等智能产品,没有用上的人都不好意思和别人打招呼;此外,谷歌和Facebook都分别在TensorFlow和C...

42340
来自专栏新智元

【开源】北大团队大规模稀疏数据机器学习库xLearn,c++ trending 已超TensorFlow

编辑:弗格森 【新智元导读】 机器学习博士马超近日在微博上介绍他和导师肖臻教授一起开发的一款专门针对大规模稀疏数据的机器学习库xLearn并开源。并称, vi...

48280
来自专栏CDA数据分析师

【资源】想进行数据科学项目却没有数据集?25个数据集网站汇总

原作者 Kunal Jain 编译  Mika 本文为 CDA 数据分析师原创作品,转载需授权 前言 如果用一个句子总结学习数据科学的本质,那就是: 学习数据科...

55280
来自专栏机器之心

资源 | 15个排名最佳的数据科学Python包

选自The data Incubator 机器之心编译 参与:蒋思源、黄小天 Python 语言是数据科学中最常见、最受欢迎的工具之一。近日,Data Incu...

37250
来自专栏MyBlog

J.Woodcock&J.Davies_UsingZ_1996_C1 阅读

随着软件的日益发展, 软件的功能等需求越来越多, 文档也随之增加, 组件之间的交互和冲突最后导致系统出现问题, 逐渐偏离了我们的预期. 为解决该问题, 其中一个...

8910
来自专栏专知

势头强劲: PyTorch周年大事记盘点

【导读】 1月19日,PyTorch团队对PyTorch发布一年来的成长轨迹做了总结。在过去一年里,PyTorch资源包的下载量超50万次、PyTorch频频出...

36350
来自专栏量子位

AI产品开发指南:5大核心环节搞定机器学习工作流

王小新 编译自 Quora 量子位 出品 | 公众号 QbitAI ? Python写得像英语一样6,神经网络、决策树烂熟于心,但如果不能动手将这些算法部署到实...

39050
来自专栏机器之心

前沿 | 减少30%流量,增加清晰度:MIT提出人工智能视频缓存新算法

41590

扫码关注云+社区

领取腾讯云代金券