PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)【附PPT全文】

摘要

做为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州旧金山召开。本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上,JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告,介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。

视频编码标准发展历史

探索压缩性能进一步提高的视频压缩编码方法一直是研究的热点。视频毫无疑问是“最大的大数据”(~75%的互联网流量),并且还在持续增长。这种增长一方面来自视频本身信息量的提升,如分辨率从HD到UHD,帧率从30fps到60fps甚至100fps,颜色格式从SDR到HDR,3D、多视角以及360视频的兴起。另一方面来自终端设备的增多,如越来越多的电视、手机甚至监控设备已经可以支持UHD视频。数据的增长速度超过了带宽增长,因此开发比HEVC性能更好的下一代视频编码技术是非常必要的。

国际上的视频编码标准组织主要有两个,ITU-T的VCEG (Video Coding Experts Group)和ISO/IEC的MPEG(Moving Picture Experts Group)。早期这两个组织或独立或联合开发了多个视频编码标准,后来的视频编码标准都是两个组织联合开发的:2003年由JVT联合工作组发布的H.264/AVC,2013年由JCT-VC联合工作组发布的H.265/HEVC以及JVET联合工作组正在进行的下一代视频编码标准H.26X/VVC。

每一代视频编码标准只规定了语法、码流以及解码器格式。用户可以自己对编码器进行优化,比如进一步提高压缩性能或者进一步降低计算复杂度,只要码流格式符合标准规定即可。自H.261起,所有的视频编码标准都采取了一个堪称“标准模型”的混合编码框架,包含预测(帧内预测、帧间预测)、变换、量化、熵编码、环路滤波等基本模块。此外,也遵循一个编码界的“摩尔定律”:新一代视频编码性能要比上一代标准提高一倍。

视频编码压缩性能的提升主要来自以下几个方面:一、更先进的运动估计、运动补偿以及帧间预测技术,预测模式、预测精度、参考帧数量等都在不断提高。二、更先进的帧内预测技术,预测方向、预测块大小等在不断细化。三、更先进的环内滤波方法,去块效应、样本自适应补偿(SAO)的引入可以有效降低解码重建帧的失真。四、更先进的熵编码方式,专门为视频编码信号设计的熵编码方法可以进一步降低编码后的码率。此外,率失真优化技术(RDO)的演进有助于选择综合码率和失真的最优的编码模式; 码率控制技术(Rate Control)可以更精确的控制压缩后的码率。

VVC call for proposals——设置与结果

为了研究下一代视频编码技术,JVET联合工作组于2015年10月发布了实验软件JEM(Joint Exploration Model)来探究比HEVC性能更好的压缩技术。JEM是在HEVC的参考软件HM的基础上通过加入一些更加先进的技术或者替换某些已存在的技术开发的。2017年7月份结束的Call for Evidence已经证明了相比于HEVC,JEM可以极大的提升压缩性能。但是由于只是为了探究技术的性能,在实现过程中,JEM并没有考虑编码的时间复杂度,其编码器的复杂度急剧提升,因此JEM并不会作为新的标准参考软件发布。JVET于2017年10月开始征集提案(Call for Proposals)并于今年4月完成了对提案的评估。在这轮Cfp中,共收到32个组织的多份提案,分别涉及了SDR、HDR、360视频等多种格式。所有提案的性能都高于HEVC,甚至某些提案的性能高于JEM。

下一代视频编码标准VVC的设计目标是要适用于绝大多数的数据类型: HD/UHD分辨率格式,SDR/HDR格式,摄像机拍摄的内容、计算机产生的内容、非摄像机产生的视频格式以及360、光场等新兴格式。为了实现这一目标,在Cfp阶段,工作组设定了多个测试序列以及测试条件。

Cfp提供了包含SDR、HDR、360视频三种视频类别的多个测试序列,分辨率从HD到UHD(4K), 6K/8K(360视频)。每个视频类别都规定了由低到高四个不同的码率点(R1-R4)。同时对于主观测试,规定使用DSIS方法,并分别与HEVC和JEM进行比较。

测试结果显示,就客观质量(PSNR)而言,对于SDR类型的视频,相比于HEVC,新的综合技术提案最高可以节省超过40%的码率;相对于JEM最高也可以节省超过10%的码率。对于HDR和360视频也有同样的趋势。此外,有些技术提案虽然压缩性能与JEM持平,但极大的降低了编码复杂度。

新的提案在主观性能上也显示出了同样的优势,全部提案的主观性能都明显高于HEVC。对于另一个比较软件JEM而言,有部分提案的主观性能低于JEM,但也有多篇提案的性能有明显的提高。并且对所有类型的测试序列都显示出了这样的性能趋势。经统计发现,对于全部测试的视频类型,每种视频类型下性能最好的技术提案在某个码率点(R[x])的主观质量都不低HEVC在高于该码率点的下一个码率点(R[x+1])的主观质量。特别的,对于SDR-UHD类型的测试序列,性能最好的技术提案在某个低码率点(R1、R2)的主观质量都不低于HEVC在四个码率点中第二高的码率点(R3)的主观质量。因此,下一代视频编码标准在同等质量的情况下节省50%的码率的目标是可能实现的。

编码工具简介

对于探索用的测试软件,JEM在HM的基础上改进或者增加了多个编码工具。

•块划分结构

  • 更大的CTU尺寸256x256,更大的TU尺寸64x64.
  • 四叉树加二叉树划分(QTBT)

QTBT的划分方式中不再有CU、PU、TU的概念,统一在最后划分得到的块上进行操作。

•帧内预测

  • 65个帧内预测方向
  • 使用4抽头插值滤波器
  • 其它预测方向的边界滤波
  • 跨分量线性模型预测(CCLM)
  • 基于位置的帧内预测组合(PDPC)

相对于HEVC的帧内预测,JEM具有更多的预测模式、更多的参考位置以及模式依赖的滤波/平滑,色度块使用相邻块的预测模式或者使用对应的亮度块的模式导出。此外,在CCLM中,使用线性模型预测样本的色度分量。

•变换

  • 自适应选择多种变换核
  • 基于帧内预测模式的二次变换

JEM的最大变换尺寸为128 x 128,变换时只保留低频分量的系数,把高频分量的系数置零,自适应多核变换(AMT,Adaptive Multiple Core Transform)用于选取帧内预测模式的变换集,变换矩阵的量化更精确。在帧内预测模式下,经过初次变换后变换系数间的相关性依然比较强,所以JEM中使用了模式依赖的不可分二次变换(MDNSST,Mode-Dependent Non-separable Secondary Transforms)。

•帧间预测

  • 子块级运动矢量预测
  • 自适应MV精度(AMVR)
  • 1/16运动矢量精度
  • 重叠块运动补偿(OBMC)
  • 局部光照补偿(LIC)
  • 仿射运动估计
  • 解码端基于模式匹配的运动矢量推导
  • 解码端的双向光流(BIO)

在JEM中,一个CU在每一个预测方向上最多有一个运动参数集,大CU分割为子CU时有两个选项:ATMVP和STMVP,作为额外的合并候选者,候选列表能扩大的最大值为7。JEM的运动补偿中使用了仿射运动矢量推导(Affine Motion Vector Derivation),即在CU的运动矢量场中,在1/16像素处为每一个4 x 4块推导可用的MV,分为AF帧间模式和AF合并模式。解码器端使用了运动矢量优化(DMVR,Decoder-side Motion Vector Refinement),使用双边模板匹配优化双向预测的MV。

•环内滤波

  • 自适应环路滤波(ALF)
  • 双边滤波

•熵编码CABAC

  • 改进的变换系数上下文模型选择
  • 改进的上下文模型初始化方式以及模型更新

在2017年中期,JEM相对于HM在性能上已经有了明显的提高:帧间编码(random access配置)平均码率节省大致为30%,只进行帧内编码(无运动补偿)时大致为20%,主观测试则表明这些数据可以转化为更高的视觉增益。

本次提案征集的大多数提案依旧基于混合编码框架,其性能主要来自于对HEVC和JEM中已有模块的进一步改进。本次提案征集中比较新的内容是提出了一种新的编码块划分方式,即从四叉树的叶节点开始交替使用三元树和二叉树划分,进一步的变体包括非对称矩形和Diagonal二叉树划分模式。此外,也有一些基于神经网络的新兴编码技术。

总结与展望

目前,VVC的第一代测试模型——VTM1已经公布了。VTM1是在经过一些简化的HEVC的基础上开发的,当前版本的VTM只是引入了新的划分方式以及增大了CTU以及TU的尺寸。此外,Benchmark Set 也已经发布,主要包含了一些在JEM中表现良好的编码工具。相比于HEVC,在标准测试条件下,VTM和BMS(Benchmark Set)分别可节省8%和23%的码率,但编码复杂度也有明显的增加,分别为HEVC的200%和900%。。

视频压缩编码是一个十分活跃的研究领域,尽管最新的编码标准HEVC相比于上一代编码标准已经显示出了极大的性能提升,JVET的前期探索工作证明了研究性能超过HEVC的压缩编码方法是可能的。当前一系列用于探究编码性能、编码复杂度等的核心实验(Core Experiments)正在开展,还有一些新兴的技术比如深度学习也开始应用到视频编码领域。因此,在保证与HEVC相同的主观质量的情况下,节省50%码率的下一代视频编码标准是可能完成的。

报告PPT全文:

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-07-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏原创

Python与R的争锋:大数据初学者该怎样选?

在当下,人工智能的浪潮席卷而来。从AlphaGo、无人驾驶技术、人脸识别、语音对话,到商城推荐系统,金融业的风控,量化运营、用户洞察、企业征信、智能投顾等,人工...

47990
来自专栏CSDN技术头条

Fregata: Spark上支持万亿维机器学习模型

大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的...

22150
来自专栏人工智能头条

6月机器学习热文TOP10,精选自1400篇文章

8910
来自专栏AI研习社

AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主...

19640
来自专栏人人都是极客

语音识别之回声消除及调试经验

本文讲的回声(Echo)是指语音通信时产生的回声,即打电话时自己讲的话又从对方传回来被自己听到。回声在固话和手机上都有,小时还可以忍受,大时严重影响沟通交流,它...

64530
来自专栏AI科技评论

前沿 | IBM发明世界首个人造神经元,离人脑模拟更近一步

受人类大脑运行方式的启发,IBM苏黎世研究中心制成了世界上第一个人造纳米级的随机相变神经元。并在其基础上构建了由500个该神经元组成的阵列,让该阵列模拟人类大脑...

30980
来自专栏机器学习AI算法工程

极简增强学习新手教程 返回专栏查看评论

“如何学习新技能?”这是一个全球科学家都在研究的基础问题。为什么会想要知道这个问题的答案呐,答对了好处都有啥呢? 因为一旦我们能够理解这一点,就可以实现一些前...

33050
来自专栏量子位

当你的深度学习模型走进死胡同,问问自己这5个问题

安妮 编译自 Semantics3官方博客 量子位 出品 | 公众号 QbitAI ? 深度学习是一项庞大又复杂的工程,在建立深度学习模型时,走进死胡同被迫从头...

40340
来自专栏机器之心

业界 | 对比了六家计算机视觉API,发现最好的竟然是...

选自free Code Camp 作者:Mariya Yao 机器之心编译 参与:蒋思源、刘晓坤 本文通过吉娃娃与松饼的图像对比了流行的六大计算机视觉API,...

38660
来自专栏媒矿工厂

【视频编码】 Content Aware ABR技术(二)

上次我们回顾了Content Aware ABR的使用场景和基本原理,并梳理了Netflix的per-title和per-chunk技术相关研究进展。本文将主要...

78480

扫码关注云+社区

领取腾讯云代金券