【视频编码】 Content Aware ABR技术(三)

本系列的前面贴子中,我们梳理了Netflix和YouTube在ABR方面的一些进展,本文将简要介绍一下编码优化领域的一位新贵—Beamr的技术动态。

Beamr是内容自适应视频编码与优化解决方案的提供商,致力于为MSO(Multi-System Operator,多系统运营商)和OTT(Over The Top,流媒体服务商)提供视频技术支持,如Hollywood studios以及视频分发平台等。该公司成立于2009年,总部在以色列特拉维夫,此外在Palo Alto (帕罗奥图,美国加州)以及St. Petersburg(圣彼得堡,俄罗斯)等地也有分部。Beamr于去年收购了H.264/H.265 编码厂商Vanguard Video,并获得了1500万美元的融资。之后通过将其特色的视频优化技术集成到Vanguard Video的编码器中,能够以较低的码率达到较高的编码质量。对于内容分发商而言,在给定码率下最大化视频质量是一直追求的目标,因此这类解决方案会受到视频服务商的关注。

近期,Beamr发布了质量驱动的内容自适应HEVC商业软件编码器,Beamr 5x。其宣称他们的HEVC视频输出码率节省能多达50%。Beamr 5x最核心的是其自主研发的内容感知优化技术,让我们来一探究竟。

1 Beamr的视频质量工具

编码失真是每个视频编码专业人员重点关注的对象。对于大部分互联网用户来说,当下能获得的视频码率平均在3Mbps左右。在这个码率下,规模化压缩视频文件时需要一套有效的度量工具或算法来检测和分析编码失真。

常用的视频质量评价指标是PSNR和SSIM,两者都是全参考图像质量评价模型。PSNR数学表示简洁,便于分析,但不能很好的反映视觉上失真。SSIM一定程度上反映了视觉感知特性,将图像质量降级作为图像结构信息的一种视觉偏移,其中包括了一些重要的感知细节,例如亮度以及对比度掩盖等,如下图所示。

图 1 SSIM计算流程

SSIM基于的假定是,像素之间具有较强的依赖性,这种依赖性包含了相邻帧或场景中物体的结构信息。简单而言,SSIM就是用于计算两幅图的结构相似度,取值范围在[0, 1]之间,SSIM值越接近于1,则区域x和y之间越相似,也即图像质量越高、失真越小。SSIM的提出相对传统指标PSNR而言是一重要进展,而PSNR被证明与人眼视觉特性并不相关。但SSIM本身并不是完美的,在某些场景下仍会估计错误。如图2所示,左图是原图像,右图是压缩之后的图像,左右两幅图在视觉上非常相近,但右图的PSNR和SSIM的计算结果并不高,显示两幅图差异较大。而MOS (mean opinon score) 主观打分结果显示两幅图差异很小。

Beamr开发了一套新的全参考质量评价工具,其官方宣传具有如下技术特点:1)经过大量训练,能够有效检测和刻画视频块编码失真;2)CPU资源的占用和消耗比较低;3)考虑了了视觉显著性及时域失真;4)与主观评价相关性高(见图2例子)。

图 2 几种视频质量评估工具的效果对比

质量评估工具也可用于调控视频的编码压缩(通过QP),使得编码器在保持视觉质量不变的情况下最大限度地压缩源视频。应用于编码时基本步骤是:首先对源视频进行正常编码,然后通过反映视觉失真的全参质量评价工具检测重建质量,接下来根据目标RD效率调整量化参数(+/-QP)重新编码,如图 3所示基本框架。

图 3 Beamr质量评估工具反馈编码过程

Beamr宣传其质量评估工具集成到编码器后,能够比目前标准兼容的基于块的编码器减少额外高达50%的码率,而不会影响图像视觉质量。这个做法非常类似于Netflix,采用VMAF对不同切片进行不同{码率,质量}的大规模编码组合,遍历寻找最优的编码控制点。

不过更理想的做法是内容自适应编码优化技术,将质量评估(Distortion)和编码器做紧耦合,实现RDO和码率控制,支持Frame级和CTU级别的操作。这方面难点在于反映视觉失真的计算模型往往是非线性和全局的,而编码的控制则是局部的和上下文因果关联的。因此需要multi-pass和 alternative 反复实验才能找到最优。这方面也是包括Beamr在内各家新锐公司的竞争力所在,很多核心技术没有披露细节(抑或本身就是玩神秘,拉估值用的)

2 Beamr Content Adaptive优化的一些公开信息

Beamr帧级别内容自适应编码优化技术,对打包封装前的H.264/H.265压缩码流进行二次编码,据称在不引入可察觉质量降级的情况下,能够平均节省25%的码率,并能够保持帧间图像质量平稳。图 4为一个范例,视觉质量保持相同,码率节省21%。

图 4 经过Beamr Video优化的视频流码率节省示例

如前文简述,Beamr Video的编码优化过程是一个迭代的闭环系统,它关注的是每一个编码后的帧与输入的帧在视觉感知下是否一致。在这个过程中,被压缩过的视频帧首先进行解码,然后使用更为有效的编码参数重新对其编码,从而得到一个比原来压缩程度更高的码流。具体而言,输入的帧先被解压缩,然后使用质量评估工具以源视频帧作为参考进行分析(如图 5所示)。这个分析过程还考虑了视频序列间的时域关系,使得相邻帧的视觉质量具有一致性。最后经过评估工具综合考量后得出一个分数,如果这个分数在一个预定的质量范围内,就通过这一帧,继而转向下一个输入帧。如果这个分数超过了上限阈值,意味着这一帧可以去除掉更多的比特,因此就会对这一帧进行深入压缩,然后重复上述评估过程,直到这个得分在目标范围内。相反,如果这个分数低于下限阈值,意味着这一帧不再和源视频帧具有相同的视觉质量,优化工具就会以轻度压缩的编码参数重新编码,直到该帧达到这个质量阈值。

图 5 Beamr Video视频分析过程示意图

Beamr Video目前以文件流的方式进行处理,但兼容和满足一些应用场景下的低延迟编码需求,而且提供直播流的优化支持。

总结起来,Beamr Video有以下几个特点值得关注:

1. 评估分析编码后的视频文件以选择合适的编码参数进行再次编码,整个过程自动化进行,不需要人为参与,满足大规模视频编码及分发传输应用需求。

2. 许多方案需要分析整个视频切片才能得到VBR或CBR的码率,不能以更小的粒度如根据场景或帧来做分析评估。该方案能到帧级别进行分析并选择合适的编码参数,可以为每一帧分配合适的比特数。

3. CRF(Constant Rate Factor)虽然在ABR中比较有效,但使用的信息有限,没有深入分析帧级别的内容特性,因而无法达到最佳的编码质量。此外,许多方案直接使用CRF作为VBR或CBR指导因子进行编码,没有后处理编码的质量验证过程。而如果没有这个闭环的话,最后编解码得到的视频可能会产生一定的视觉失真,而且质量会有波动,或者编码的码率超过了实际所需。

参考文献

1. Mark Donnigan. How the Magic of Beamr Beats SSIM and PSNR. [EB/OL]. http://blog.beamr.com/2017/03/07/how-the-magic-of-beamr-beats-ssim-and-psnr/ , 2017-3-7.

2. Beamr. Beamr Announces the Acquisition of Vanguard Video and a $15M Investment Round.[EB/OL].

https://www.prnewswire.com/news-releases/beamr-announces-the-acquisition-of-vanguard-video-and-a-15m-investment-round-300241962.html/ , 2016-3-29

3. Beamr, It’s Time To Modernize Your Encoding Profiles ,But How?.[EB/OL]

http://media2.beamrvideo.com/pdf/Beamr_Content_Adaptive_Tech_Guide.pdf , July 2016.

4. Beamr, Beamr Announces First of Kind HEVC Content-Adaptive Software Encoder.[EB/OL].

https://www.prnewswire.com/news-releases/beamr-announces-first-of-kind-hevc-content-adaptive-software-encoder-300440752.html?nsukey=PO%2FX4HCuUQ8z3%2B%2Fjr97ydMzBhSr0EpWa30h1rltkWElyr5%2FaA2aScdNW8oK5oy5fpYasVnQu9qnMZQIQ5hleO3RWWQfWFdDyDZmx%2F95Z1pjw1wQJn6TpDokpSRzP3ON3FtafK0vsrgVqvaR6WNojk6yAs3pJRRbHMB1Q5itcY5vMwxeStUZANUcjvUc0IKjizyca7Mw7mfhByXauaCVGzA%3D%3D , 2017-4-18

本文分享自微信公众号 - 媒矿工厂(media_tech)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能计算时代

机器学习与文本分析

image.png 原文作者:微软研究院杰出科学家Ashok Chandra博士,项目经理Dhyanesh Narayanan 译者:张鑫 ? 上个世纪七十年代...

43060
来自专栏数据科学与人工智能

【陆勤践行】机器学习与文本分析

原文作者:微软研究院杰出科学家Ashok Chandra博士,项目经理Dhyanesh Narayanan 译者:张鑫 ? 上个世纪七十年代,当我(Ashok)...

26090
来自专栏大数据文摘

一位缺觉的父亲记录了他双胞胎宝宝的睡眠数据 并交给机器学习,结果……

22960
来自专栏机器学习AI算法工程

关联规则挖掘综述

本文介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评价,指出传统关联规则衡量标准的不足,归纳出关联规则的价值衡量方法,展望了...

51490
来自专栏大数据和云计算技术

似懂非懂Google TPU

谷歌的这款芯片被称作 Tensor Processing Unit,简称 TPU,是Google专门为深度学习定制的芯片。 第一次出现是在2016年的Googl...

34660
来自专栏AI2ML人工智能to机器学习

机器学习平台的优化器 (优化篇)

在 " 机器学习平台的优化器 (平台篇)"里面, 我们简介了平台们,和什么是优化器。 这里我们开始介绍不同平台的优化。 我们把相同编程语言的优化器放在一起,...

25920
来自专栏数据小魔方

一点儿建议、一枚彩蛋~~~

这段时间写了太多的教程,感觉自己都写烦了,不知道大家看的烦不烦,今天没有教程,写一点儿心得总结下这段时间以来的经验和体会,顺便介绍一款图表插件,也将是小魔方下一...

47850
来自专栏人工智能LeadAI

我与Python | 从Hacker到探索Deep Learning

为什么是Python 人生苦短,我用Python... ? 'Life is short, you need Python!' 进入大学之后,我们逐渐“被教授”...

57370
来自专栏Hadoop数据仓库

HAWQ取代传统数仓实践(十二)——维度表技术之分段维度

一、分段维度简介         在客户维度中,最具有分析价值的属性就是各种分类,这些属性的变化范围比较大。对某个个体客户来说,可能的分类属性包括:性别、年龄、...

278100
来自专栏深度学习自然语言处理

谈谈我在自然语言处理进阶上的一些个人拙见

自然语言处理这个方向我感觉已经泛滥了,很多方向的人都开始转向该专业,当然也包括转向计算机视觉的。之前我写过一篇文章

14530

扫码关注云+社区

领取腾讯云代金券