视频编码性能提升新途径——面向编码的动态预/后处理技术

2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。9月20日早,旨在使用图像恢复方法来提升编码效率的Grand Challenge环节中,我们作为唯一的参赛者进行了技术分享。主办方希望可以征集一种类似于HEVC标准中后处理的方法来提升编码效率,与传统不同的是,可以使用伴随码流传输的辅助信息在解码器上帮助图像复原,其中辅助信息可以在编码端进行提取与压缩。为了将图像复原技术更好结合到视频压缩之中,这里也推荐采用独立于编解码器的环外滤波结构。

基于上述要求,我们提出一种基于卷积神经网络(CNN)的后处理滤波器,并且采用环外结构将其应用在HEVC编解码器中。我们提出的编码结构如图1:

图1 编码框架

这个结构中,主要包含三个模块:镜头检测,视频分类,以及后处理滤波。在这个编码框架中,主要思想是将视频根据复杂度以及压缩质量进行分类,然后对每一类别分别进行滤波,而该分类信息也将作为一个辅助信息在码流中进行传输。

镜头检测:

镜头检测的任务是将输入的视频序列划分为多个连续的镜头,而这里镜头是指在一段不间断的时间中,由单个相机采集的子序列。而在一个镜头中,每一帧内容较为相近,以镜头为基本单位进行复杂度分类的方法也较为合理。所以在该结构中,视频首先输入镜头检测模块,从而划分为很多子序列,也是一个自适应划分GOP 的过程。

视频分类:

接下来,每个子序列一方面进入到编码器进行压缩,另一路进入到与编码器并行的分类模块。我们在复杂度和压缩质量两个方面进行分类。这里复杂度分为空间复杂度(SI)以及时间复杂度(TI)。其计算方法如下:

先对测试序列进行分析,得到若干组(SI,TI),并且使用K-means的算法将其分成三类,分部代表高,中,低三种复杂度,每一复杂度取中值作为分类指标。当然,因为这里任务是图像复原,实际上主要使用空间复杂度。而在压缩质量这一块,采用量化参数(QP)执行更进一步的分类。根据观察,在一般情况下,QP主要分配在20到40之间。所以选择6个常用的QP:10,24,28,32,36,40 和3个辅助的QP:15,44,48。一个子序列输入该分类模块后,对于整体计算复杂度,并且找到其复杂度类别。然后根据每一帧分配的QP,选择最近的QP类作为其质量类别。因此对每一帧都有一个长度不超过1字节的分类信息,在码流中传输。

CNN滤波器:

在后处理模块中,我们采用了基于CNN的滤波器。近几年很多工作已经证明,神经网络在一些低层次的计算机视觉任务中取得了较为出色的效果。为了验证我们编码结构的有效性,采用了超分辨率任务中一个很强大的网络VDSR[1],如图2。

图2 VDSR网络结构图

但因为图像复原工作中分辨率是不改变的,所以不进行滤波之前的插值,直接输入神经网络。该模型是20层的全卷积神经网络,主要采用残差学习和修正线性单元(ReLU)两项基本技术。这个后处理模块位于解码器之后,所以解码器提取出边界信息后,传给该模块,依此选取相应类别的CNN模型进行处理。而对于每一个类别,均有一个线下训练好的CNN模型。

实验:

训练方法:

该编码框架支持神经网络的线下训练,针对每一个预先分好的类别,对训练数据进行训练,具体的训练细节在表1中呈现。

对训练集进行分类之后,使用x265以表1中的模式进行压缩,固定QP值。再将其分割成许多尺寸为35×35的子块,用来扩展训练数据。最后使用CAFFE进行训练,具体的参数配置可见论文[2]。

表1 离线训练细节

测试结果:

针对Grand Challenge提供的八个视频序列:三个分辨率为,四个分辨率为,以及一个分辨率为的视频。对其进行主观与客观方面的性能分析,在这里,需要强调一点,在参考论文中,测试结果以及测试细节与本文中所呈现的有所区别。在之前的训练过程中,我们仅仅使用视频序列作为训练集,之后加入了自然图片,极大增加了训练数据的有效性。同时在训练数据的预处理过程中,原先采用 –keyint 256的模式在x265上进行压缩,之后改为 –keyint 1 ,使得训练数据更加收敛于设定的QP点 。表2为八个视频亮度分量上的测试结果:

表2 亮度分量的BD-rate

总体来说,对于这八组视频,在亮度分量上平均实现了2.92%的增益,在Flower_cif这一序列上实现最大增益,BD-rate降低4.91%。同时在视觉性能上也具有明显的改善,如下图3是Flower_cif这一序列的第44帧,采用600kb/s比特率进行压缩:

图3 视觉性能(细节增强)

其中包含数字的部分被放大并且置于右下角,可以看出在图像的边界以及一些细节上,经过后处理显得更加清晰。

图4是red_kayak序列中的第9帧,在比特率1600kb/s的情况下压缩:

图4 视觉性能(效应缓解)

可以看出(a)图中含有块效应,而经过后处理模块,这里的块效应被有效缓解了。

结论:

本文中所介绍的环外后处理方法在一定程度上提升了编码性能,最高实现4.91% BD-rate增益。并且也显著提升了视觉质量,另一些细节更加清晰,失真得到了缓解。不过对于一些镜头缩放以及平移的场景,性能提升还不太明显。

人工智能的热度与日俱增,深度学习也应用在各个行业学科。而近几年,深度学习也逐渐与视频编码结合起来,并且得到了较为出色的效果。而我们后面也将推出系列文章来介绍基于学习的视频编码技术,包括变分辨率,变滤波器参数等其他这种框架下的处理办法,敬请持续关注。

参考自:

[1] Kim J, Lee J K, Lee K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[J]. 2015:1646-1654.

[2] C. Li, Li Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC,” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017. (论文下载地址:http://medialab.sjtu.edu.cn/publications/publications.html)

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小樱的经验随笔

时间序列分析算法【R详解】

简介 在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上时间的脚步。但是随着技术的发展,出现了很多有效的方法,能够让我们预测未来。不要担...

3206
来自专栏大数据挖掘DT机器学习

Kaggle 数据挖掘比赛经验分享

简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 K...

3167
来自专栏机器之心

教程 | Keras+OpenAI强化学习实践:行为-评判模型

选自Medium 作者:Yash Patel 机器之心编译 参与:乾树、黄小天 本文先给出行为-评判模型(actor-critic model)的基本原理,包括...

3189
来自专栏机器之心

学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

3406
来自专栏CDA数据分析师

MIT 用 AI 实现自动抠图,轻松打造效果惊艳的特效电影

随着电影越来越关注 CGI,电影制作人必须更加擅长「合成」,即将前景和背景图像融合,比如将演员放在飞机或行星上,或者放在电影《黑豹》里瓦坎达这样的虚构世界中。

272
来自专栏AI科技评论

CVPR 2018 中国论文分享会之「视觉与语言」

本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第四个 Session——「Vision and Lang...

863
来自专栏机器之心

学界 | 自然语言处理领域欧洲顶级会议EACL 2017杰出论文出炉

选自EACL 2017 机器之心编译 参与:微胖,吴攀 ? 自然语言处理领域的欧洲顶级会议 EACL 2017 将于当地时间 4 月 3-7 日在西班牙瓦伦西...

2496
来自专栏大数据挖掘DT机器学习

数学之美番外篇:平凡而又神奇的贝叶斯方法

作者:LeftNotEasy 原文:http://blog.csdn.net/mydear_11000/article/details/48731497 概率论...

2434
来自专栏机器之心

学界 | 用单张图片推理场景结构:UC Berkeley提出3D景深联合学习方法

选自BAIR Blog 作者:Shubham Tulsiani、Tinghui Zhou 机器之心经授权编译 参与:smith、蒋思源、李泽南 最近,UC Be...

2775
来自专栏CSDN技术头条

Kaggle 数据挖掘比赛经验分享

Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kagg...

4169

扫描关注云+社区