【前沿动态】视频编码步入更压缩高性能时代

目前,针对海量多媒体数据的压缩和处理,特别是VR和HDR视频数据,开发并提出新的高性能codec及处理方案是多媒体通信应用行业共同面临的难题。MPEG已经开始着手更新一代视频编解码标准VVC的制定,视频压缩性能有望进一步大幅提高。在此背景下,本文简要梳理一下当前针对大规模多媒体数据的高效压缩技术。

VVC

随着超高速5G网络的即将部署以及VR直播、超高分辨率、低延迟实时多媒体应用的日益兴起,海量复杂的视频数据使得高效的数据压缩处理技术显得愈发重要。Ericsson多媒体解决方案核心技术专家Tony Jones表示,"进一步提升压缩性能是提供多媒体视听服务的关键,也是降低数据存储和传输成本的有效手段。"因此,针对大规模数据进行压缩处理的研究和开发工作已经迫在眉睫,其中比较重要的一项就是制定HEVC/H.265的下一代视频压缩标准。

目前由MPEG(ISO)和VCEG(ITU-T)成立的联合视频专家组(The Joint Video Experts Team, JVET)已经开始着手下一代视频压缩标准Versatile Video Coding (VVC) 的研究,与之前制定的MPEG-2、H.264、HEVC类似,其目标是要比前一代编码器提升50%的压缩性能。MPEG发言人Christian Timmerer(奥地利Klagenfurt大学副教授兼codec解决方案提供商Bitmovin的研究主管)表示,"预计会在2020年实现VVC相比HEVC性能翻倍的目标。此外,VVC的实际应用包括但不限于360度全景视频和高动态范围HDR视频的压缩。" VVC在编码时会更加关注360度视频的特定区域,这些区域是大多数视频用户的关注点。根据MPEG的官方测试数据显示,初步征集的VVC提案已经在超高清(UHD)视频测试序列上取得了较高的增益。以此估计,最终确定的VVC标准其性能的提升可能会不止50%。因此,VVC的出现可能会给目前OTT Streaming市场已有的codecs如AVC、VP9、HEVC,以及正在开发制定的AV1带来一定的冲击。Bitmovin刚刚发布的编解码器测试结果表明,AV1(与VP9类似,免版税)相比HEVC性能提升高达40%。该公司认为多个编解码器标准将会并列存在,以便支持不同设备和平台上的多媒体服务。

JPEG XS

MPEG标准通常用于视频序列的压缩、存储和分发,而JPEG则一直关注静态图像的压缩,然而目前JPEG针对视频制作与流传输提出了新的codec,JPEG XS。JPEG XS是开源的codec,具有6:1的压缩比,实际上要比标准JPEG的压缩比(10:1)低不少。在洛桑联邦理工学院(École Polytechnique Fédérale De Lausanne,EPFL)主导JPEG XS研发的Touradj Ebrahimi教授表示,"图像编码史上第一次,为了更好地保持图像质量而将压缩比降低了,而且我们希望在使用更少的资源的同时来加快处理速度。"

JPEG XS是TICO编解码器(SMPTE RDD 35)的演进版,其本身基于JPEG 2000。TICO背后的一家比利时公司IntoPix也参与了JPEG XS的设计开发。IntoPix市场营销总监Jean-Baptiste Lorent认为,JPEG XS在未压缩视频的使用场景中是非常有用的。JPEG XS旨在为低复杂度和低延迟的媒体应用提供解决方案,允许使用相当高的带宽,例如UHD约为2 Gbit/s,而未压缩的则为12 Gbit/s。Ericsson多媒体技术专家Tony Jones同样也表示,类似JPEG XS这种轻量级的压缩方案对于高质量场景的应用是非常适合的,能够使得带宽、文件大小等都在可控范围内,而质量在压缩前后几乎没有什么区别。JPEG XS基于一种帧内编码技术实现,也就是说不执行帧间预测。这使得它比诸如AVC和HEVC等压缩标准具有低得多的比特率性能,但是反过来却提供了非常低的延迟,即可以将延迟保持在一个视频帧以内。JPEG XS有许多潜在的特殊应用场景,包括工作室中的使用、远程制作和其他延迟较为敏感的场景,同时也比较适合处理4K和8K视频,尤其适用于视频制作和编辑(包括实时的和基于文件的)。Jean-Baptiste Lorent认为,这种低延迟、低压缩率和高效率的编解码器非常适合通过Wi-Fi和5G进行流式视频传输,并且在后期可以协助无人机和自动驾驶汽车的运行,此时如若延迟较高是非常危险的。此外,为Adobe Premiere Pro CC进行JPEG XS插件开发的Fraunhofer IIS表示,当高质量的视频图像数据需要通过有限的计算资源进行处理时,使用轻量级的codec也是很有必要的。根据ISO的标准化时间表,JPEG XS很可能会在2018年底之前获得批准,并会很快使用在相机上。

全景VR

此外MPEG还致力于制定沉浸式多媒体标准,例如360度视频和VR。Ericsson多媒体技术专家Tony Jones表示,这两种视频场景都存在极其严格的motion-to-photon要求,即根据头部位置变化进行响应的延迟必须非常低。对于360度视频,渲染是对整个360度图像或其中某个特定部分在本地进行的,而对于实际中的VR视频,场景内容必须根据这些头部运动动态创建。如果是在本地进行场景创建(例如在游戏控制台中),则不会有太大的挑战性。另一方面,如果渲染是远程执行的,并且需要在一定比特率要求下进行传输,那么在满足motion-to-photon要求的同时实现这一点是一项重大挑战。

目前已经形成了一个初步的整体方案MPEG-I,其中第一部分定义了系统、音频和视频相关的参数,并即将发布,其中包括Omnidirectional Media Format (OMAF) ,而其余部分只给出了大致介绍。OMAF实现了许多技术优化,基本上对编码、流媒体传输、解码和呈现等环节都有影响,但在广泛采用之前可能还需要一些时间。其第一版主要关注基于HEVC的360度视频压缩。第二个版本(OMAFv2)将在10月份起草,主要针对3DoF+,这是一项包括运动视差(motion parallax)的新进展,可以让观众"watch behind objects"。换句话说,OMAF正在研究潜在的全息显示技术。OMAF的后续版本可能会针对social VR全方位6自由度(6DoF)甚至光场的密集表示,进行改进。Timmerer将social VR描述为使VR内容能够在社会环境中消费,既可以同时在相同的地理环境中,也可以在不同的地理环境中,如不同的地区和国家。

MPEG-I的其他方面还涵盖点云压缩,这种深度信息表示形式可用于生成三维或全息场景。Timmerer表示,目前处于各种编码工具核心实验的阶段,有益的结果将被纳入工作草案中。可以预计OMAFv2将比VVC更早完成,因此OMAFv2仍将依靠HEVC。

Holograms全息影像的压缩

还有另外一个值得关注的层面,特别是针对光场中海量数据进行压缩的方案。目前MPEG-I中对这类方法似乎存在一些分歧。根据全息显示开发商Light Field Lab的CEO Jon Karafin的估计,对真正的原生光场进行流式传输需要的速率为500Gbps甚至1TBps。先不管如何传输,本身处理如此多的数据就需要非常高效的压缩技术。MPEG的一个小组正在起草一种方案,使得"内容交互和沉浸式的呈现"成为可能,其采用的是Hybrid Natural/Synthetic Scene data container (HNSS)。根据MPEG,HNSS将提供一种方法来支持符合自然光流、能量传播和物理运动操作(the natural flows of light, energy propagation and physical kinematic operations)的场景。Timmerer表示该小组正在研究MPEG-I中的场景描述,并梳理现有的格式和工具以及它们是否可以在MPEG-I中使用。此外,不同于传统的视频压缩技术,该方法通过捕捉纹理、几何图形和其他容积数据,然后将其包裹在"媒体容器"中来创建场景的3D模型。

参考资料

https://www.ibc.org/delivery/compression-enters-the-high-performance-era/2819.article

https://www.ibc.org/content-management/introduction-to-jpeg-xs/2452.article

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

[译] 天龙八步 第二弹:8步从Python白丁到专家,从基础到深度学习

2827
来自专栏媒矿工厂

【视频编码】 Content Aware ABR技术(六)

在本系列前面的帖子中,我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ及Bitmovin在ABR方面的一些进展,本文将简要介绍一下编码...

3979
来自专栏VRPinea

VR小工具盘点|底层技术的革新,让VR有更大的落地空间

工欲善其事必先利其器,这是一个讲究效率的时代,对VR用户体验来说也是一样。不能带来好的用户体验的产品或应用,难道不是耍流氓么?所以,小编今天就特意为大家盘点下近...

1433
来自专栏机器之心

深度 | 从GPU制造者到服务器提供商:英伟达的计算平台转型

这是一次巨大的转变,但对所有以计算为中心的平台供应商而言,这个过程终将——在某些情况下逐渐地发生。

1340
来自专栏新智元

AI真的会杀人?DeepMind开发了二维网格游戏来做测试

来源:DeepMind、arXiv、fortune 作者:张乾 【新智元导读】人工智能安全性的话题一直热度不减,马斯克和霍金都公开呼吁过。不过,DeepMind...

28712
来自专栏Frank的专栏

剖析广州“开四停四”交通限行的实现技术

今天我们就从技术的角度,来剖析一下如何技术上实现“开四停四”的判定执法。

1.8K60
来自专栏机器学习算法与Python学习

资源 | 中文NLP资源库

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

2202
来自专栏企鹅号快讯

桌面互动游戏

桌面互动投影系统通过投影系统将动态图像投影于各种形状投影屏上,取代传统文字、图像展示方式,具有展示新颖,设计独特等特点。 用户可以在屏幕进行触控操作,取代传统的...

1958
来自专栏互联网数据官iCDO

6个分析方法快速诊断搜索竞价排名(SEM)的表现

  这篇文章给需要快速了解一个账户的朋友们使用。这六个方法分别是:“一九”分布、消费和转化的四象限、转化分解、核心词互动度与ROI的气泡图分析、单页推广的核心词...

3075
来自专栏媒矿工厂

【视频编码】 Content Aware ABR技术(七)

在本系列前面的帖子中,我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ、Bitmovin及Harmonic在CAE(Content A...

2805

扫码关注云+社区

领取腾讯云代金券