前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >面向VMAF的HEVC感知率失真优化

面向VMAF的HEVC感知率失真优化

作者头像
用户1324186
发布2021-07-29 15:53:26
6890
发布2021-07-29 15:53:26
举报
文章被收录于专栏:媒矿工厂媒矿工厂

论文标题:HEVC VMAF-oriented Perceptual Rate Distortion Optimization using CNN

发表会议:PCS2021

作者:朱辰

01 PART

摘要

HEVC / VVC 等视频编码框架中的率失真优化(RDO)模块均使用SSE作为失真准则,没有充分考虑人类视觉系统的特性。近期,Netflix开发了学习类客观质量指标 VMAF,并已被证明比传统指标更准确。为将VMAF结合至RDO以提高感知编码效率,我们提出了一种基于 CNN 在线训练的感知RDO方案,由关键帧准确计算得到的VMAF相关系数被用于训练和推导后续帧的VMAF相关系数,该系数最终在RDO中被用于调节编码块的拉格朗日乘子。实验结果表明,所提出的方法在HEVC软件HM16.20上可以实现平均-2.80%的基于VMAF的BD-Rate。

02 PART

介绍

视频多途径评估融合(VMAF)是由 Netflix 和南加州大学于 2018 年开发的客观质量评价指标。它使用机器学习中的支持向量机(SVM)网络将多个基本指标或特征融合为最终的VMAF质量评分,这样最终分数就可以保留每个基本指标的优势,并借此得到更精确的评价分数。

当前版本的 VMAF 采用了三个帧级基础指标:

1. 视觉信息保真度(VIF)。从信息论的角度量化了图像信息的损失;

2. 细节丢失指标(DLM)。一种图像质量指标,分别衡量可能影响到内容可见性的细节丢失情况,以及可能分散观众注意力的不必要损失;

考虑到视频的时域特性,还引入了:

3. 运动量。这是一种衡量相邻帧之间时域偏差的有效措施。

基于前述基础指标,Netflix通过构建主观测试数据集用于训练和测试VMAF。目前,VMAF已表明比已有的评价方法具有更高的精度,并被业界广泛认可与采纳。

03 PART

方法

基于 VMAF 的感知 RDO 框架主要包括三个步骤:

(1)固定间隔中的第一帧(KeyFrame)预编码,并计算 RDO 所需的编码块级 VMAF 相关系数;

(2)根据KeyFrame的相关结果,神经卷积网络(CNN)在线训练方法用于拟合当前内容场景的VMAF特征,在线训练的模型用于后续帧VMAF相关系数的推导;

(3)感知编码,将VMAF相关系数嵌入RDO,获得基于VMAF的感知拉格朗日乘子,调整编码块的R-D性能。

下文对各步骤进行具体介绍。

(1)首先KeyFrame 在多个QP点(27,32,37,42)预编码。为便于解释,其中某QP点的预编码结果称为基准重建,其余为常规重建。与SSE、SSIM等指标有所不同,学习类帧级指标VMAF用于编码块级RDO时,很难直接利用公式得到块级的失真。本方法则通过建立 VMAF 失真和 SSE的关系解决该问题。定义 VMAF 失真 (V) 后,可以建立起基准/常规重建的 V(Vb / Vr)的偏差(△V)与编码块SSE的近似线性关系:

其中,VMAF相关系数或权重k建立了帧级感知失真和像素/块级传统失真之间的联系,会在后续被用于RDO。

通过假设 △V 由各编码块独立产生,KeyFrame中各编码块的VMAF相关系数k可以用下图的块替换方法得到:推导第i个块的k时,只有基准重建的对应块被常规重建中的同位置块替换,产生一个临时帧。此时,Vr就是该临时帧的V,进而根据Vb和编码块的SSE得到对应的k。

(2)在线训练 CNN 模型。前述的块替换获取系数的方法需要预编码和VMAF计算,计算开销很大,在实际应用中并不可行。而相邻帧之间的内容是相似的,因而没有必要对每一帧通过该方法获得感知系数。本方法使用在线训练 CNN 来学习当前场景的VMAF特性。

由于 SSE 在编码过程中可得到,因此 CNN 的主要任务是输出每个块的 △V,△V的Ground Truth由KeyFrame的基准重建和相邻QP点的单个基准重建通过块替换方法得到。网络输入则是未编码 KeyFrame 中的对应编码块(64x64)。CNN 架构如下图所示,为了快速收敛,模型是由三个卷积层组成的简单网络。为了适应不同的基准重建水平,对各个预编码也是实际测试使用的QP点分别训练模型。通过这种在线训练方式,后续帧的 △V 和 k 可以由该模型导出并用于 RDO。

(3)最后一步是使用块替换计算或在线训练模型导出的k实现感知 RDO。为将 VMAF 与 RDO 结合,使用感知编码中常见的一种方法,采用 V 作为 RDO 中的失真。为了解决该 RDO 问题,使用三步简化推导方法。首先采用标准编码器常用到的码率独立假设/简化,将一帧的总速率转换为累积形式,通过将导数设置为零来找到感知乘子λp 的最优解:

为求解微分方程,需要 V 对 r 的导数,相当于需要基于 VMAF 的 R-D 模型或 R-V 模型,这里进行第二次简化:R-D模型等价,使用帧级RD模型统一求解 λp,

通过实验测试发现,HEVC R-V模型可以用双曲线模型很好地拟合。因此采用该模型与参数 alpha 和 beta 进一步解决问题。

将 R-V 模型代入导数方程可以求解出最优码率 Rp,同样,也可以使用 R-SSE 模型计算出基于原始 SSE 失真的最优码率 Rsse,令 Rp 等于 Rsse,可以得到 λ的关系。因而可以通过基于SSE失真的原始 λsse 和 R-D 模型参数导出 λp。

使用 R-V 模型导出 λp 后,可以将问题限制在特定的失真点。这里将 V 看作是对基于 SSE RDO基准重建进行感知调整后的重建失真,基准和调整重建之间则存在一个 △V

因此,前面所说的带权重k 的近似线性 △V-SSE 函数可以作为替代 V 的第三次简化。

通过数学等价,保持原SSE失真不变,系数k用于调整λp。最后的形式表明只需调整拉格朗日乘子就可以实现感知RDO。

04 PART

实验

提出的感知RDO方案在 HM 16.20 LDB 配置中实现,编码QP点为(27,32,37,42),IDR 帧和KeyFrame的间隔均设置为32。在线训练在 Tensorflow-CPU 版本上运行。从表中可以看到,方法实现了平均 2.80% 的 VMAF BD-Rate 增益,这与已有的VMAF 感知RDO方法性能相当,并且提出的方法在一些相对静态的序列上取得了更高的性能,因为KeyFrame中用于在线训练的样本足以覆盖后续帧的感知特征。此外,方法的额外复杂度为 44%,这是可控和可接受的。

05 PART

参考文献

[1]Luo Z, Huang Y, Wang X, Xie R, Song L. Vmaf oriented perceptual optimization for video coding[C]//2019 IEEE International Symposium on Circuits and Systems (ISCAS). IEEE, 2019: 1-5.

[2]Li Z, Bampis C, Novak J, et al. VMAF: The journey continues[J]. Netflix Technology Blog, 2018, 25.

[3]Luo Z , Zhu C , Huang Y , et al. VMAF Oriented Perceptual Coding based on Piecewise Metric Coupling[J]. IEEE Transactions on Image Processing, 2021, PP(99):1-1.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档