前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于VMAF,内容感知编码和无参指标的思考

关于VMAF,内容感知编码和无参指标的思考

作者头像
用户1324186
发布2019-12-23 16:25:35
1.5K0
发布2019-12-23 16:25:35
举报
文章被收录于专栏:媒矿工厂媒矿工厂

本文为媒矿工厂编译的技术文章

原标题:Thoughts around VMAF, Content-Aware Encoding and No-Reference metrics

原文链接:https://sonnati.wordpress.com/2019/12/03/thoughts-around-vmaf-contentawareencoding-and-no-ref-metrics/

原作者:Fabio Sonnati

翻译整理:徐鋆

介绍

独立于所使用的编码器,内容感知编码(Content-Aware Encoding, CAE)和内容感知传输(Context-Aware Delivery, CAD)代表了目前视频流的最先进技术。多媒体行业花了很长时间来消化这些概念,但现在它们绝对是主流:

每个内容都是不同的,需要用不同的方式来编码。观看的内容是不同的,需要不同的服务。流媒体服务的优化需要CAE和CAD策略。

我已经多次讨论了这些逻辑以及对CAE和CAD策略的需求,这些年来,我为客户实现了不同的优化。

说起内容感知编码,一开始我们使用经验规则来确定源特征和编码参数之间的关系,从而在尽可能小的比特率下获得令人满意的质量水平。用来调整算法的“质量指标”通常是技术人员的感觉,或者更少见的使用全功能的主观质量评价。按照经典的优化方法,我们将一个复杂的域(比如视频流)细分成子域,递归地尝试逐个优化它们(如果可能的话,再进行联合优化),并使用人眼感觉测试来指导决策。

最近,引入了与人眼感觉高度相关的指标,如VMAF,极大地助力了设计更精确的CAE模型,以及验证交付给客户的视频实际质量。但是,所有的问题都解决了吗?现在,我们能否用与人眼感知相关的低消耗、快速的客观指标,完全取代专家的眼睛和主观测试?答案并不简单。根据我的经验,是和不是取决于很多因素,其中之一就是准确性。

关于准确性

在我的职业生涯中,我有幸与思想开放的管理者、开发者以及敢于走出舒适区、为了质量、优化和创新而推动实验、尝试和大胆想法的合作伙伴共事。所以在过去的十年里,我有机会参与了一些有创新性的令人兴奋的项目,比如:各种CAE的部署,研究人眼感觉来调整视频编码的优化和滤波,定义类似于VMAF的指标来训练最先进的CAE中的机器学习算法等。在本文的后续部分,我将讨论在追求最佳编码流程的过程中遇到的一些问题。

当VMAF在2016年发布时,我对使用它来改进一个客户的现有CAE部署很感兴趣。如果可以用一个可伸缩的视频质量评价工具来代替一个昂贵而耗时的主观评价,那就可以在编码优化、视频处理、新编解码器或其他有关视频流的创造性想法方面进行大量的实验。可重复质量指标对于“推销”一个新想法也很有用,因为可以演示它会产生的好处(特别是如果这个指标是由Netflix开发的,并且很具有说服力)。

然而,从一开始,VMAF就在实验中表现出了一些非最优行为,至少在一些场景中是这样。特别的,我现在甚至可以识别出VMAF的致命弱点是在黑暗或平坦场景中估计感知质量的准确性下降。

在CAE中,我们试图使用尽可能少的比特率来达到期望的最低质量水平。这同时导致低复杂度的平坦场景有非常低的比特率。另一方面,在这种场景中,任何对量化水平或目标比特率的错误估计都可能导致质量的严重恶化,特别是可能会引入大量的“带状”伪影。这样的话,CAE的一个优点变成了一个缺点,因为标准的CBR编码可以避免在相同的情况下产生带状效应(尽管会浪费比特率)。

因此,需要一个准确的度量来处理这个问题。带状伪影是8位AVC/HEVC编码的一大难题,同时也会出现在10位HEVC视频中,特别是当源的能量较低时。一个错误的量化阶可以完全抹除更高频、更精细的频率分量,从而导致带状效应的产生。

如果我们使用像VMAF这样的指标来调整CAE算法,那就需要非常小心,或者重新训练VMAF来增加在这些情况下的准确性(VMAF还有其他有问题的情况,比如非常颗粒状的噪声,但在那些情况下,主观质量会被低估,这个处理起来较为简单)。

我认为VMAF并不是所有情况下的正确选择,因为就连YouTube在Big Apple 2019大会上也指出,VMAF往往不能正确识别出带状效应的存在。

我估计这种行为可能是由于VMAF评估质量的方式,例如下2.5xH的距离可以减少在这些情况下的灵敏度,但由于VMAF 4k的距离是1.5xH,所以问题依然存在于此。这是这个基本指标的一个缺点。

4K下的一个案例

让我们分析一个具体的案例。最近我对4K内容进行了主观质量测试,包括SDR和HDR/HLG。VMAF 4K没有针对HDR进行调优,因此我将仅考虑SDR情况。主观评价已经被用来调证一个专用的质量指标来支持HDR内容,并且用于训练一个基于机器学习的,针对4K SDR/HDR视频流的CAE模型。

下图显示了一个黑暗场景。左边是原始版本,右边是压缩后的版本。

在下图(对上图进行了Gamma映射,提升了亮度,从而可以看到伪影)中,可以很容易地看到图像已经严重损坏。它充满了条纹,运动也(在这里不可见)是受影响的,并且还有伪影。然而,VMAF平均分为81.8分(满分100分),相当于4分(满分5分)的MOS分,严重高估了主观质量。

主观评分小组(总共60人,9000多分,离50寸4K显示器1.5xH的距离,DSIS方法)打出的MOS分为3.2,但在我看来仍然是偏高的,因为另一个专业团队的打分为更低的2.3分。

从研究中,我们发现这类伪影的主观评分差异显著增加,这可能是由于个体的视觉敏锐度和文化方面的差异(没有经过识别特定伪影的训练)。但专业人士很快就会发现质量很差,因此也有很大一部分观众(在这个例子中,58%的人打分在3分或以下)会认为质量不够,尤其是相比于他们对于4K的预期来说。

这是一个经典问题,当方差很大时,需要考虑均值。VMAF还提供了一个置信区间,这对于做出更好的决策是有用的,但是对于上面的例子,预测仍然有一个被高估的均值,并且与平均主观分数至少相差2 JND,更不用说与专家评分的差别了。

无论如何,下面这张图中我们可以看到VMAF 4K与SDR序列的主观评价之间的相关性。低于红线的点表示VMAF高估了预测质量的内容。基于这种评估所做的任何决策都可能导致错误或伪影。

仍有很长的路要走

VMAF现在还不是一个完美的工具。然而,它为在各种场景中方便地估计视频质量铺平了道路。我们可能应该做的是考虑它到底是什么:在通往准确和全面的质量评估的漫长旅程中,这是重要的“一步”。

现在,如果VMAF在特定的场景中不是准确的,或者如果你需要一种不同的灵敏度,可以使用其他数据重新训练VMAF,改变或整合基本指标或制作自己的关注特定需求的指标 (可能不那么普遍适用但在特定场景中更精确)。还可以使用综合的方法,也就是混合使用各种估计器来减少弱点。

在未来,我认为有其他着眼点来处理这种问题:更好的时域遮蔽;在时间和空间域上不同的打分方法;在不同观测条件下的质量扩展。

最后,我觉得YouTube的方法非常有趣。他们使用无参考指标来估计源和编码视频的质量。无参考指标并不是用来衡量一对压缩视频的感知退化,而是只用来评估压缩视频的“绝对”质量,而不评估原视频。

我认为无参指标不仅在源不可访问(或检索和使用的代价高昂)时评估质量很有用,就像在监视现有的实时服务时一样,而且它们作为CAE算法的内部指标也很有用。

事实上,如果可以节省带宽,现代的编码流程常常试图用“感觉上好”来换取对源的保真。使用无参考指标而不是全参考指标可以增加这种行为,类似于在超分辨率中所发生的情况,即从DNN训练中更传统的成本函数转变到GAN中的“逆向”成本函数。但这又是另一个故事了。

更多与视频质量评价指标相关的内容讲可以查看之前的访谈音频(一)访谈音频(四)Demuxed 2019帖子。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
媒体处理
媒体处理(Media Processing Service,MPS)是一种云端音视频处理服务。基于腾讯多年音视频领域的深耕,为您提供极致的编码能力,大幅节约存储及带宽成本、实现全平台播放,同时提供视频截图、音视频增强、内容理解、内容审核等能力,满足您在各种场景下对视频的处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档