专栏首页媒矿工厂Ittiam优化VP9,turnaround时间大幅减少

Ittiam优化VP9,turnaround时间大幅减少

libvpx是Google开发的视频编解码器VP8和VP9的开源软件实现库。libvpx中包含了VP9视频编码算法,相比H.264/AVC,在高质量配置的2 pass编码模式下能提供40%多的 BD-rate增益。这使得libvpx(VP9)在OTT(Over The Top)视频传输服务中潜力巨大。

然而,与H.264/AVC编码器相比,libvpx编码速度较慢,会产生较长的turnaround时间。例如,使用libvpx 1.6.0版本,’good’-CPU-used= 1配置,在相同的硬件和相似的线程配置条件下2 pass编码的速度比x264编码器的’very sow’配置慢2倍。尽管性能增益很高,但速度差距可能成为VP9技术被采用的障碍。最近,Ittiam与Netflix和Google合作的一个项目旨在提高libvpx编码器的性能。通过高效的多线程实现,使得在没有质量损失的情况下速度提高了50-70%。与汇编级优化不同,多线程优化适用于任何多核处理器。作为其中的部分改进,多线程优化应用于以下三个libvpx 2 pass编码模式中表现较差的情况。

1. First pass stats collection process

First pass stats collection process在libvpx编码器中是单线程的。所有宏块(MB)在一帧内按光栅扫描顺序处理。这个过程可以用多线程实现,即处理不同的tile MB行的过程与在MB级上解决帧内预测时顶部像素的依赖性问题的同步过程保持并行。图1展示了基于行的多线程方法(MT),包括2个tile列和4个线程。线程1和3在tile 0列,线程2和4在tile1列。

图1 两tile列四线程的MT方法

处理过程如上所述,直到相关的tile列处理完成为止。如果当前tile列中没有要处理的tile MB行,则将线程分配给其他tile列,如图2所示。多线程实现使用一个job队列机制,其中每个job对应于一个tile MB行的处理。

图2 两tile列四线程下的线程再分配

2. Second pass encoding stage

在libvpx VP9编码器second pass的并行机制受以下因素限制:

  1. 1. 给定分辨率配置下的tile列的数目。例如,对于1080p分辨率,最大可能的tile列数为4,将编码器限制为最多4路并行。
  2. 2. 由于不同的tile列尺寸以及边界上的内容变化导致不同的线程处理时间,由此产生的损耗。

上述限制可以通过使用job队列机制来解决,如图1和图2所示,其中每个job对应于一个tile MB行。顶部同步需要在帧内和MV预测时予以保证。

3. ARNR滤波

在参考软件实现中,滤波过程是单线程的,一帧内所有MB都以光栅扫描顺序处理。这里使用类似于上述job队列机制的多线程方法。由于滤波过程没有任何空间依赖关系,所以不需要顶部同步过程。上面讨论的基于行的多线程方法确保了由于变化的线程处理时间而产生的损耗是最小的。当线程的数量超过tile列的数量时,这种方法会带来编码性能的改进。该方法对BD-rate的影响微乎其微。

表1 不同分辨率下基于行的多线程方法在2 pass模式下编码速度提升

(相同计算资源,Threads=Max column tiles)

表2 不同分辨率下基于行的多线程方法在2 pass模式下编码速度提升

(双倍计算资源,Threads=2 * Max column tiles)

从表1和表2中可以看出,这次改进在turnaround时间层面上有高达60-70%的提升,改进后的libvpx版本大幅减少了计算成本和turnaround时间。结合相比于H.264/AVC编码的带宽增益,优化后的VP9实现版本为在线视频流媒体应用编码HD和UHD/4K流提供了一个有效可行的的选择。

本文分享自微信公众号 - 媒矿工厂(media_tech),作者:王浩

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NMOS的发展近况

    NMOS(Networked Media Open Specification)是AMWA(Advanced Media Workflow Associatio...

    用户1324186
  • 编码,打包,CDN交付和视频播放器端的延迟优化

    在本系列上一篇文章《定义和测量延迟》中,介绍了为什么延迟是OTT传输的一个问题以及如何测量端到端延迟中不同传输步骤所占的延迟比重。 本文接下来介绍可能的延迟优化...

    用户1324186
  • 第130届MPEG会议总结–创新满足基本需求

    原标题:130th MPEG Meeting Takeaways – Innovation meets Essential Needs

    用户1324186
  • Linux并发与同步

    典型的UNIX系统都支持一个进程创建多个线程(thread)。在Linux进程基础中提到,Linux以进程为单位组织操作,Linux中的线程也都基于进程。尽管实...

    Vamei
  • 网络中子网的划分

    已知 IP 地址是 141.14.72.24,子网掩码是 255.255.192.0。试求网络地址。

    wsuo
  • Unity应用架构设计(10)——绕不开的协程和多线程(Part 2)

    在上一回合谈到,客户端应用程序的所有操作都在主线程上进行,所以一些比较耗时的操作可以在异步线程上去进行,充分利用CPU的性能来达到程序的最佳性能。对于Unit...

    用户1161731
  • Java 高级 --- 多线程快速入门

    Thread.yield()方法的作用:暂停当前正在执行的线程,并执行其他线程。(可能没有效果) yield()让当前正在运行的线程回到可运行状态,以允许具有...

    yunlgonn
  • PHP扩展开发(七)Zend 线程安全

    在PHP诞生的初期,它总是以单线程的CGI方式运行的,因此,根本不需要考虑多线程问题,因为进程的处理不会超过单个请求。

    用户2131907
  • Java线程池的那些事

    熟悉java多线程的朋友一定十分了解java的线程池,jdk中的核心实现类为java.util.concurrent.ThreadPoolExecutor。大家...

    哲洛不闹
  • Java线程基础操作

    佛系编码

扫码关注云+社区

领取腾讯云代金券