前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新兴的MPEG-5 EVC标准:应用、技术与结果

新兴的MPEG-5 EVC标准:应用、技术与结果

作者头像
用户1324186
发布2019-10-03 13:36:57
2.8K0
发布2019-10-03 13:36:57
举报
文章被收录于专栏:媒矿工厂媒矿工厂

摘要

三十多年以来,传媒业的数字化带来了新的服务、扩大了传统服务的覆盖范围并且给世界各地的消费者带来不断改善的视听体验。数字媒体的分发与消费中最核心的技术问题之一就是压缩,尤其是视频压缩。近几年来,行业里出现了多种不同的视频编码标准和专用的编解码器,并且新研制的编解码器的压缩性能也在不断提高。但是有时候,压缩效率并不是决定编解码器是否适合某一场景的唯一因素。本文介绍的MPEG-5 EVC(Essential Video Coding)标准是由MPEG开发的,它采用了一种新的研制思路,旨在解决业务需求,包括专利许可和技术需求,以便在整个媒体行业中实现快又广泛的部署。

介绍

开发一个新的标准通常要从分析需求入手:新标准要解决什么问题?新标准的理想技术性能如何?新标准如何与该系统生态的其他部件如何相互作用?新标准的目标应用场景是什么?

多年以来视频编码的核心问题一直未变:在尽可能保持视频质量的前提下,尽可能地减少数据量。同时,我们通常只定义比特流格式和解码器(而非编码器),这使得解码器具有跨行业兼容性,同时使得编码过程更加灵活,更易满足延迟和可用计算资源的需求。

尽管编码器的输入格式与解码器的输出格式(未压缩的视频数据样本)多年以来保持不变,但是不同代视频编码标准的应用却大不相同。例如,1993年研制成功的MPEG-1标准主要用于CD视频;1995年研制成功的MPEG-2标准主要用于DVD和数字广播电视;2003年研制成功的MPEG-4 Advanced Video Coding (AVC/H.264)主要用于高清电视和基于IP的视频服务,例如OTT(Over The Top)服务;2013年完成的MPEG-H High Efficiency Video Codin(HEVC/H.265)主要用于4K和HDR/WCG视频。

自2018年4月以来,MPEG(ISO/IEC JTC 1/SC 29/WG 11)与VCEG(ITU-T SG 16/Q 6)共同致力于一个新项目:多功能视频编码(Versatile Video Coding,VCC),预计将在提供沉浸式视频体验的应用中部署,如虚拟现实流媒体、8K广播和高动态范围(HDR)视频。

从技术和标准的角度来看,我们仍可以将旧的视频标准用到新的应用程度上。例如我们可以将MPEG-1标准应用到4K视频中,尽管这么做很可能没有解码器来支持这样的应用并且没有定义它的级别。然而上述系统的带宽需求将会达到极限,这样做的代价很大。但是如果我们该用最新的视频编码标准,我们最大程度的减少分发编码视频所需的资源,并尽可能地提高视频质量,这对服务提供商与消费者来说是双赢的,只要我们的部署以及专利授权的成本是合理的。

HEVC标准

HEVC视频编码标准是在MPEG和VCEG的联合标准化项目中制定的,全行业的组织都参与了该项目。在HEVC2010年至2013年的第一阶段中,每年举行四次会议,有近500人参与,收到1000多份文章,至少有50家公司参与了其中。如此广泛的参与带来了多重优势:可以考虑审视更多的创新技术、可以调用更多资源去审查标准的不同部分,更为重要是的是,会有很多组织机构支持这一标准,从而有利于该标准在不同应用中的部署。但是如此广泛的参与也带来一个潜在的不利因素:当标准的最终版本确定之后,该标准是包含有来自于不同专利持有者的专利。任何想要使用或部署该标准的人或组织必须保证他们有正当许可。早期的MPEG视频编码标准提供了一个单一的专利许可,涵盖了标准中的绝大多数技术,并且公开了许可条款。HEVC的情况则有所不同,它有三个不同的专利池,并且还有很多专利持有者不通过专利池来提供专利许可。图1显示了一些声明拥有HEVC专利的组织或公司。

图1 已宣布拥有HEVC必要专利的组织

对于HEVC专利许可情况能在多大程度上影响该标准的实施与部署,当前存在着不同的声音。但是一般认为,较早且统一的专利许可声明和更高的透明度为HEVC提供了更为广泛的市场采用机会。但同时也应该清楚地看到,在某些应用领域,例如互联网视频流中,HEVC的适用范围很窄。Encoding.com网站在其《2019年全球媒体格式报告》中指出,自从2003年起,只有12%的编码使用HEVC,仍有82%使用AVC标准。

专用视频编解码器

本文只研究视频编码标准,即由国际标准开发组织(Standards Developing Organizations,SDOs),他们具有FRAND(Fair,Reasonable and Non-Discriminatory)承诺、规范文本,参考软件以及相关维护。

然而,市场上也有一些其他的视频编解码器,如Divideon的XVC编解码器、RealNetworks的RealMediaHD编解码器、V-Nova的Perseus编解码器和开放媒体联盟(AOM)的AV1编解码器。总的来说,至于专用编解码器能在多大程度上满足不同行业的需求,并为依赖传统标准的编解码器带来多大吸引力,仍有待观察。

背景

传统情况下,在MPEG中开发视频编码标准的过程很简单。MPEG-5标准采用了能带来最好的压缩效率的技术,只要该标准能够在软硬件中很好地实现与运行,除了出资人对于FRAND的承诺要求之外,无需考虑其他技术问题。在商业运营方面,尤其是专利许可方面,该标准是在独立于MPEG外部进行处理的。

为了解决既复杂又不明确的MPEG标准许可问题,2018年就开始了相关问题的讨论,并尝试用用一种不用于以前的标准化制定过程,总结如下:

1. 选择20年之前的技术或者有免版税声明的技术来定义该标准

2. 在基本工具集上定义了一些其他工具,每个工具在压缩性能方面都有显著的改进。

3. 每一个附加的工具都是隔离的,这样它就可以独立于其他工具进行开关控制。

4. 鼓励技术赞助者提交与专利许可或出版有关的自愿声明。

5. 定义了分析机制,以便允许不同模式可以包含有不同的工具。

征集意见

在对征集意见书评估之后,MPEG-5 EVC项目于2019年1月正式开始,并根据评估结果确定了工作草案与测试模型。三星、华为、高通和Divideon都响应了征集建议的要求,并积极参与标准制定工作。本文的四位作者是MPEG-5 EVC标准草案的编辑。

应用

基于以上定义的过程,结合吸引人的技术和商业特性,MPEG-5 EVC有望广泛应用于各种应用中。该项目的需求文件特别强调了实时编码在实时OTT流媒体和离线编码在流视频点播中的重要性,但其他应用,如视频会议和传统广播,也有望得到MPEG-5 EVC的支持。该标准将支持(至少)高达8K的视频分辨率和每秒至少120帧的高帧速率(HFR)。为了在今天和将来的显示器上提供尽可能高的质量,标准将支持高动态范围(HDR)和宽色域(WCG),精度为10位。

技术

MPEG-5标准草案基于三星、华为和高通对于征集建议的响应,并参考了Divideon的图片管理和高级语法方面的技术。MPEG-5 EVC的核心是基本模式,它只包含20年前的或者是已经免初版权税的技术。多余的工具包含在主模式当中。图2显示了MPEG-5 EVC标准的简化概述,其中包括20个附加的编码或HLS功能,每个功能都可以单独禁用。

图2 MPEG-5 EVC标准概述

本节中的图与说明是基于2019年7月的MPEG-5 EVC的项目状态,在最终版本确定之前,仍可以添加、移除或修改工具。

高级句法

MPEG-5 EVC比特流由许多网络抽象层(Network Abstraction Layer, NAL)单元组成,这些单元具有一个小的NAL单元报头,该报头指示NAL单元的一些属性,例如数据类型和时间ID。序列参数集(Sequence Parameter Set, SPS)包含应用于整个编码视频序列(Coded Video Sequence, SCV)的参数,图片参数集(Picture Parameter Set, PPS)包含应用于CVS的一个或多个图片的数据,自适应参数集(Adaptation Parameter Set, APS)包含应用于CVS的一个或多个图片的一个或多个部分的数据。在基本模式中,图片标识符和参考图片结构直接从SPS和NAL单元报头中的信息导出,而主模式提供了图片标识符、图片顺序计数信令(Picture Order Count Signalling, POCs)和参考图片列表(Reference Picture Lists, RPL)中的灵活性,在图片级别发出信号。

熵译码

MPEG-5 EVC使用与JPEG相同的二进制算术编码方案。该方案包括二值化步骤和由查找表定义的概率更新。在主模式中,基于相邻块的语法元素的派生过程,使得环境建模与初始化过程更为有效。

编码结构

在MPEG-5 EVC中,块结构的核心是一种传统的四叉树编码结构,它将编码后的图像分割成最多为128x128luma样本的块,这些块可以递归地分割成越来越小的正方形块。主模式添加了两个高级编码结构工具:允许非方编码单元的二元三叉树(Binary Ternary Tree,BTT)和将分割单元的处理顺序从传统的左扫描顺序处理更改为右扫描顺序处理的分割单元编码顺序(Split Unit Coding Order,SUCO)。在主模式中,可以将图片分割为矩形小块,这些小块可以并行地独立编码。

帧内预测

MPEG-5 EVC中的帧内预测是在分割结构中的编码单元的相邻样本中执行的。对于基本模式,所有编码单元均为正方形,存在五种不同的预测模式;DC(邻域的平均值)、水平、垂直和两个不同的对角线方向。在主模式中,预测可应用于任何矩形编码单元,并且在所谓的增强帧内预测方向(Enhanced Intra Prediction Directions,EIPD)中有28个附加方向模式可用。在主模式中,也可以使用块内复制(Intra Block Copy,IBC)来参考同一图片中先前编码的样本块。

帧间预测

MPEG-5 EVC帧间预测的基础是采用四分之一采样分辨率的插值滤波器进行运动补偿。在基本模式中,使用三个空间相邻运动矢量中的一个和一个时间并置运动矢量作为预测器来发送运动矢量信号。运动矢量差可以相对于所选择的预测器被发送信号,但是对于没有运动矢量差被发送信号并且块中没有剩余数据的情况,存在称为跳过模式的特定模式。主模式包括六个用于提供改进的内部预测的附加工具。利用高级运动内插和信令(dvanced Motion Interpolation and Signalling, AMIS),可以在概念上合并相邻块以指示它们使用相同的运动,但也可以使用更高级的方案来创建与基本模式中的预测器相当的候选预测器列表。运动矢量差分合并(Merge with Motion Vector Difference, MMVD)工具使用与相邻块的概念合并类似的过程,但还允许使用包含起点、运动幅度和运动方向的表达式来发送运动矢量的信号。

使用高级运动矢量预测(Advanced Motion Vector Prediction, ADMVP),可以从同一图片中的相邻块以及参考图片中的并置块导出更多的块的候选运动矢量预测。自适应运动矢量分辨率(Adaptive Motion Vector Resolution, AMVR)工具提供了一种方法,可以将运动矢量的精度从四分之一采样降低到半采样、全采样、双采样或四采样,这可以提供一种效率优势,例如在发送大的运动矢量差异时。主模式还包括解码器侧运动矢量细化(Decoder-side Motion Vector Refinement,DMVR),它使用双边模板匹配过程来细化双向模式下的运动矢量。

反量化与变换

当使用帧内预测或帧间预测来预测数据块时,通常将剩余数据添加到预测块。剩余数据通过应用逆量化处理和逆变换来获取,通常在解码器中将这些过程称为“逆”。MPEG-5 EVC包括整数离散余弦变换(DCT2)和标量量化。对于主模式,改进的量化和变换(Improved Quantization and Transform, IQT)使用不同的映射和剪裁函数进行量化以提供更好的性能。由于转换系数在左上角的绝对值通常较高,因此块的剩余数据从右下角开始以逆之字形扫描顺序进行扫描。主模式中的高级系数编码(Advanced Coefficient Coding, ADCC)能够更有效地发送系数值信号,例如通过最后一个非零系数指示。在主模式中,也可以使用自适应变换选择(ATS)来应用DST7或DCT8的整数版本,而不仅仅是DCT2。

环路内滤波器

MPEG-5 EVC的基本模式使用H.263附件J中定义的去块滤波器。在主模式中,与基本模式中的解块滤波器相比,可以使用高级解块滤波器(Advanced Deblocking Filter, ADDB),它可以进一步减少伪影。主模式还定义了两个附加的环路内滤波器,它们可用于在输出和/或用于帧间预测之前提高解码图片的质量。沃尔什-阿达玛转换域滤波器(Hadamard Transform Domain Filter, HTDF)在解块前应用于luma样本,并使用扫描过程确定4个相邻样本用于滤波。自适应环路滤波器(Adaptive Loop Filter, ALF)允许为luma组件发送多达25个不同滤波器的信号,并且可以通过对每个4x4块的分类过程来选择最佳滤波器。ALF滤波器的滤波器参数在APS数据结构中发出信号。

解码图片缓冲区

在以前的技术中,解码的图片可以存储在解码的图片缓冲器(Decoded Picture Buffer, DPB)中,以用于预测按照解码顺序在它们之后的图片。在基本模式中,DPB的管理(即添加和删除参考图片)由SPS中的信息控制。对于主模式,如果使用RPL方案,DPB管理可以由在图片级发出信号的信息来控制。

结果

目前正在开发的MPEG-5 EVC使用了一组特定的测试条件和测试序列,这些条件称为通用测试条件,它们提供了一种监测项目进度和相互比较不同技术方案的方法。将HEVC(HM)和AVC(JM)的参考实现用作CTC中的参考标准,以指示MPEG-5 EVC测试模型如何与现有编解码器进行比较。其他视频编码标准和专有编解码器也可以使用相同的测试条件进行比较。

表1 MPEG-5 EVC主模式(ETM)与HEVC(HM16.16)的对比结果

Y

U

V

EncT

DecT

Tango2

-26.62%

-19.60%

-23.47%

394%

249%

FoodMarket4

-26.67%

-17.52%

-18.06%

316%

242%

CatRobot1

-33.40%

-30.32%

-26.46%

461%

238%

DaylightRoad2

-33.40%

-22.56%

-24.55%

485%

227%

ParkRunning3

-26.08%

-16.28%

-15.19%

685%

222%

Marketplace

-22.18%

-10.19%

-11.66%

509%

208%

RitualDance

-21.30%

-17.33%

-18.78%

481%

198%

Cactus

-24.77%

-20.12%

-16.78%

599%

203%

BasketballDrive

-24.48%

-27.01%

-28.24%

575%

219%

BQTerrace

-20.67%

-16.97%

2.41%

570%

200%

Overall

-25.96%

-19.79%

-18.08%

497%

220%

表2 MPEG-5 EVC基本模式(ETM)与AVC(JM19)的对比结果

Y

U

V

EncT

DecT

Tango2

-48.51%

-31.03%

-37.31%

42%

102%

FoodMarket4

-52.00%

-38.61%

-41.42%

47%

101%

CatRobot1

-31.95%

-34.52%

-41.74%

50%

107%

DaylightRoad2

-38.74%

-31.08%

-43.00%

41%

98%

ParkRunning3

-17.77%

-32.10%

-26.92%

40%

101%

Marketplace

-30.99%

-25.57%

-27.87%

34%

97%

RitualDance

-23.89%

-20.75%

-20.66%

37%

105%

Cactus

-22.70%

-24.91%

-29.72%

40%

114%

BasketballDrive

-20.90%

-26.44%

-31.36%

37%

103%

BQTerrace

-25.35%

-42.53%

-26.33%

39%

97%

Overall

-31.28%

-30.75%

-32.63%

40%

102%

表1和表2是对4K超高清和1080p高清测试序列比较的结果。报告里的数字是使用4个速率点和PSNR作为度量标准的luma(y)和chroma(u和v)的比特率减少值,EncT和DecT分别代表相对编码时间和相对解码时间。

从表1和表2可以看出,MPEG-5 EVC主模式比HEVC降低了26%的比特率,而MPEG-5 EVC的基本模式AVC降低了31%的比特率。对于计算复杂度,主模式下的MPEG-5 EVC相对于HEVC编码器和解码器有5倍和2倍的运算时间;而基本模式下,相对于AVC具有类似的解码时间缺减少了60%的编码时间。我们也应注意到,我们目前所用的EVC软件仍在开发中,我们有理由相信改进过之后的EVC软件可以在编解码速度上有所提高。

MPEG-5 EVC路线图

MPEG开发的标准遵循国际标准化组织定义的过程发布顺序,包括几个阶段。从一个阶段转移到下一个阶段需要一定数量的国家机构的批准,国家机构可以提供意见并将反馈意见发送回制定标准的集团。对于MPEG-5 EVC标准,计划在2019年10月完成标准中的技术要素定稿,并在2020年4月完成最终国际标准草案。

结论

本文介绍了MPEG中正在开发的新的视频编码标准MPEG-5 EVC。MPEG-5 EVC标准是使用一种新的过程开发的,该过程更重视标准中包含的技术所有权,并为编解码器的许可提供更好的基础。该标准草案基于三星、华为、高通和Dividen提交的技术,包括一个仅包含免版税条款下可用技术的基本模式。主模式中包含的所有技术组件都可以单独关闭,从而使编解码器的用户能够避免使用他们无法授权的技术。结果表明,MPEG-5 EVC标准可以达到与HEVC标准相同的视频质量。在一组超高清和高清视频序列中,平均比特率降低26%。结合许可方面, MPEG-5 EVC具有广泛采用的良好地位,特别是对于仍然基于AVC标准的应用和服务。MPEG-5 EVC标准预计将在2020年定稿并发布。

参考资料

1. ISO/IEC 11172-2: Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s: Video

2. ISO/IEC 13818-2 / ITU-T H.262: Generic coding of moving pictures and associated audio information: Video

3. ISO/IEC 14496-10 / ITU-T H.264: Advanced Video Coding for generic audiovisual services

4. ISO/IEC 23008-2 / ITU-T H.265: High Efficiency Video Coding

5. Encoding.com, Global media formats report https://1yy04i3k9fyt3vqjsf2mv610yvmwpengine.netdna-ssl.com/files/2019-Global-Media-Formats-Report.pdf

6. The xvc video codec by Divideon https://xvc.io/

7. RealMedia HD by RealNetworks https://www.realnetworks.com/realmediaHD

8. Perseus by V-Nova https://www.v-nova.com/perseus-video-compressiontechnology/

9. AV1 by Alliance for Open Media https://aomedia.org/

10. Requirements for a new Video Coding Standard

https://mpeg.chiariglione.org/standards/exploration/future-videocoding/requirements-a-new-video-coding-standard

11. ITU-T H.263: Video coding for low bit rate communication, Annex J

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档