Ittiam优化VP9,turnaround时间大幅减少

libvpx是Google开发的视频编解码器VP8和VP9的开源软件实现库。libvpx中包含了VP9视频编码算法,相比H.264/AVC,在高质量配置的2 pass编码模式下能提供40%多的 BD-rate增益。这使得libvpx(VP9)在OTT(Over The Top)视频传输服务中潜力巨大。

然而,与H.264/AVC编码器相比,libvpx编码速度较慢,会产生较长的turnaround时间。例如,使用libvpx 1.6.0版本,’good’-CPU-used= 1配置,在相同的硬件和相似的线程配置条件下2 pass编码的速度比x264编码器的’very sow’配置慢2倍。尽管性能增益很高,但速度差距可能成为VP9技术被采用的障碍。最近,Ittiam与Netflix和Google合作的一个项目旨在提高libvpx编码器的性能。通过高效的多线程实现,使得在没有质量损失的情况下速度提高了50-70%。与汇编级优化不同,多线程优化适用于任何多核处理器。作为其中的部分改进,多线程优化应用于以下三个libvpx 2 pass编码模式中表现较差的情况。

1. First pass stats collection process

First pass stats collection process在libvpx编码器中是单线程的。所有宏块(MB)在一帧内按光栅扫描顺序处理。这个过程可以用多线程实现,即处理不同的tile MB行的过程与在MB级上解决帧内预测时顶部像素的依赖性问题的同步过程保持并行。图1展示了基于行的多线程方法(MT),包括2个tile列和4个线程。线程1和3在tile 0列,线程2和4在tile1列。

图1 两tile列四线程的MT方法

处理过程如上所述,直到相关的tile列处理完成为止。如果当前tile列中没有要处理的tile MB行,则将线程分配给其他tile列,如图2所示。多线程实现使用一个job队列机制,其中每个job对应于一个tile MB行的处理。

图2 两tile列四线程下的线程再分配

2. Second pass encoding stage

在libvpx VP9编码器second pass的并行机制受以下因素限制:

  1. 1. 给定分辨率配置下的tile列的数目。例如,对于1080p分辨率,最大可能的tile列数为4,将编码器限制为最多4路并行。
  2. 2. 由于不同的tile列尺寸以及边界上的内容变化导致不同的线程处理时间,由此产生的损耗。

上述限制可以通过使用job队列机制来解决,如图1和图2所示,其中每个job对应于一个tile MB行。顶部同步需要在帧内和MV预测时予以保证。

3. ARNR滤波

在参考软件实现中,滤波过程是单线程的,一帧内所有MB都以光栅扫描顺序处理。这里使用类似于上述job队列机制的多线程方法。由于滤波过程没有任何空间依赖关系,所以不需要顶部同步过程。上面讨论的基于行的多线程方法确保了由于变化的线程处理时间而产生的损耗是最小的。当线程的数量超过tile列的数量时,这种方法会带来编码性能的改进。该方法对BD-rate的影响微乎其微。

表1 不同分辨率下基于行的多线程方法在2 pass模式下编码速度提升

(相同计算资源,Threads=Max column tiles)

表2 不同分辨率下基于行的多线程方法在2 pass模式下编码速度提升

(双倍计算资源,Threads=2 * Max column tiles)

从表1和表2中可以看出,这次改进在turnaround时间层面上有高达60-70%的提升,改进后的libvpx版本大幅减少了计算成本和turnaround时间。结合相比于H.264/AVC编码的带宽增益,优化后的VP9实现版本为在线视频流媒体应用编码HD和UHD/4K流提供了一个有效可行的的选择。

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-08-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

Apache Spark 1.1中的统计功能

Apache Spark中的理念之一就是提供丰富友好的内置库,以便用户可以轻松组织数据管道。随着 Spark,尤其是 MLlib 在数据科学家和机器学习从业者中...

20110
来自专栏AI科技评论

给正在写Paper的你:如何在成千上万的arXiv论文中脱颖而出?

本文为雷锋字幕组编译的技术博客,原标题 Heuristics for Scientific Writing (a Machine Learning Perspe...

3658
来自专栏奇点大数据

阿里巴巴最新实践:TVM+TensorFlow优化GPU上的神经机器翻译

本文是阿里巴巴 PAI-Blade 团队发表于 TVM 的最新博文,文中阐述了如何将 TVM 引入 TensorFlow,使 TensorFlow 中的 bat...

3845
来自专栏机器学习算法与Python学习

最好用的20个python库,这些你知道吗?

Python 在解决数据科学任务和挑战方面继续处于领先地位。去年,我们曾发表一篇博客文章 Top 15 Python Libraries for Data Sc...

720
来自专栏WeaponZhi

机器学习股票价格预测初级实战

上一篇文章,我用了4000字这样比较长的篇幅,介绍了一些金融和量化交易相关的基本知识,还大概说了下人工智能在金融方面使用的优劣。这篇文章我们将用一个具体代码来进...

1082
来自专栏新智元

KDnuggets 本月最受欢迎:5 个不容错过的机器学习项目

【新智元导读】受欢迎的机器学习项目很多,它们受欢迎的程度体现在在 GitHub 上获得的星数(Star)。新智元不久前介绍了 GitHub 上星数最多的16个深...

2816
来自专栏石瞳禅的互联网实验室

【TensorFlow实战——笔记】第2章:TensorFlow和其他深度学习框架的对比

可以看到各大主流框架基本都支持Python,目前Python在科学计算和数据挖掘领域可以说是独领风骚。虽然有来自R、Julia等语言的竞争压力,但是Python...

791
来自专栏数据派THU

这5个机器学习项目你不可错过!(附代码)

本文共2299字,建议阅读6分钟。 本文将给大家介绍五个十分可怕但还鲜为人知的机器学习项目,囊括了一些潜在的机器学习的新想法。

613
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/2/18

新年快乐! 注意下面很多链接都需要翻墙,无奈国情如此。 1. RL相关 1.1 DeepMind发布IMPALA算法和新的RL测试环境DMLab-30 ?...

29411
来自专栏大数据挖掘DT机器学习

自己动手写推荐系统

在下面介绍的做推荐系统的流程中,我只是想给大家介绍个普通的推荐系统该怎么做,所以很多地方都有偷懒,还请大家见谅。而且由于我不是做的在线的推荐系统,而是属于隔天...

3528

扫码关注云+社区