视频编码性能提升新途径——面向编码的动态预/后处理技术

2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。9月20日早,旨在使用图像恢复方法来提升编码效率的Grand Challenge环节中,我们作为唯一的参赛者进行了技术分享。主办方希望可以征集一种类似于HEVC标准中后处理的方法来提升编码效率,与传统不同的是,可以使用伴随码流传输的辅助信息在解码器上帮助图像复原,其中辅助信息可以在编码端进行提取与压缩。为了将图像复原技术更好结合到视频压缩之中,这里也推荐采用独立于编解码器的环外滤波结构。

基于上述要求,我们提出一种基于卷积神经网络(CNN)的后处理滤波器,并且采用环外结构将其应用在HEVC编解码器中。我们提出的编码结构如图1:

图1 编码框架

这个结构中,主要包含三个模块:镜头检测,视频分类,以及后处理滤波。在这个编码框架中,主要思想是将视频根据复杂度以及压缩质量进行分类,然后对每一类别分别进行滤波,而该分类信息也将作为一个辅助信息在码流中进行传输。

镜头检测:

镜头检测的任务是将输入的视频序列划分为多个连续的镜头,而这里镜头是指在一段不间断的时间中,由单个相机采集的子序列。而在一个镜头中,每一帧内容较为相近,以镜头为基本单位进行复杂度分类的方法也较为合理。所以在该结构中,视频首先输入镜头检测模块,从而划分为很多子序列,也是一个自适应划分GOP 的过程。

视频分类:

接下来,每个子序列一方面进入到编码器进行压缩,另一路进入到与编码器并行的分类模块。我们在复杂度和压缩质量两个方面进行分类。这里复杂度分为空间复杂度(SI)以及时间复杂度(TI)。其计算方法如下:

先对测试序列进行分析,得到若干组(SI,TI),并且使用K-means的算法将其分成三类,分部代表高,中,低三种复杂度,每一复杂度取中值作为分类指标。当然,因为这里任务是图像复原,实际上主要使用空间复杂度。而在压缩质量这一块,采用量化参数(QP)执行更进一步的分类。根据观察,在一般情况下,QP主要分配在20到40之间。所以选择6个常用的QP:10,24,28,32,36,40 和3个辅助的QP:15,44,48。一个子序列输入该分类模块后,对于整体计算复杂度,并且找到其复杂度类别。然后根据每一帧分配的QP,选择最近的QP类作为其质量类别。因此对每一帧都有一个长度不超过1字节的分类信息,在码流中传输。

CNN滤波器:

在后处理模块中,我们采用了基于CNN的滤波器。近几年很多工作已经证明,神经网络在一些低层次的计算机视觉任务中取得了较为出色的效果。为了验证我们编码结构的有效性,采用了超分辨率任务中一个很强大的网络VDSR[1],如图2。

图2 VDSR网络结构图

但因为图像复原工作中分辨率是不改变的,所以不进行滤波之前的插值,直接输入神经网络。该模型是20层的全卷积神经网络,主要采用残差学习和修正线性单元(ReLU)两项基本技术。这个后处理模块位于解码器之后,所以解码器提取出边界信息后,传给该模块,依此选取相应类别的CNN模型进行处理。而对于每一个类别,均有一个线下训练好的CNN模型。

实验:

训练方法:

该编码框架支持神经网络的线下训练,针对每一个预先分好的类别,对训练数据进行训练,具体的训练细节在表1中呈现。

对训练集进行分类之后,使用x265以表1中的模式进行压缩,固定QP值。再将其分割成许多尺寸为35×35的子块,用来扩展训练数据。最后使用CAFFE进行训练,具体的参数配置可见论文[2]。

表1 离线训练细节

测试结果:

针对Grand Challenge提供的八个视频序列:三个分辨率为,四个分辨率为,以及一个分辨率为的视频。对其进行主观与客观方面的性能分析,在这里,需要强调一点,在参考论文中,测试结果以及测试细节与本文中所呈现的有所区别。在之前的训练过程中,我们仅仅使用视频序列作为训练集,之后加入了自然图片,极大增加了训练数据的有效性。同时在训练数据的预处理过程中,原先采用 –keyint 256的模式在x265上进行压缩,之后改为 –keyint 1 ,使得训练数据更加收敛于设定的QP点 。表2为八个视频亮度分量上的测试结果:

表2 亮度分量的BD-rate

总体来说,对于这八组视频,在亮度分量上平均实现了2.92%的增益,在Flower_cif这一序列上实现最大增益,BD-rate降低4.91%。同时在视觉性能上也具有明显的改善,如下图3是Flower_cif这一序列的第44帧,采用600kb/s比特率进行压缩:

图3 视觉性能(细节增强)

其中包含数字的部分被放大并且置于右下角,可以看出在图像的边界以及一些细节上,经过后处理显得更加清晰。

图4是red_kayak序列中的第9帧,在比特率1600kb/s的情况下压缩:

图4 视觉性能(效应缓解)

可以看出(a)图中含有块效应,而经过后处理模块,这里的块效应被有效缓解了。

结论:

本文中所介绍的环外后处理方法在一定程度上提升了编码性能,最高实现4.91% BD-rate增益。并且也显著提升了视觉质量,另一些细节更加清晰,失真得到了缓解。不过对于一些镜头缩放以及平移的场景,性能提升还不太明显。

人工智能的热度与日俱增,深度学习也应用在各个行业学科。而近几年,深度学习也逐渐与视频编码结合起来,并且得到了较为出色的效果。而我们后面也将推出系列文章来介绍基于学习的视频编码技术,包括变分辨率,变滤波器参数等其他这种框架下的处理办法,敬请持续关注。

参考自:

[1] Kim J, Lee J K, Lee K M. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[J]. 2015:1646-1654.

[2] C. Li, Li Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC,” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017. (论文下载地址:http://medialab.sjtu.edu.cn/publications/publications.html)

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-09-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军,领衔图像描述生成技术

AI 科技评论按:图像描述生成技术是一个计算机视觉与 NLP 交叉研究领域的研究领域,在如今的浪潮下更显火热。今年8月,腾讯 AI Lab 凭借自主研发的强化学...

3446
来自专栏机器学习算法与Python学习

深度学习领域引用量最多的前20篇论文简介

1365
来自专栏AI科技评论

直播 | 如何让对抗网络GAN生成更高质量的文本?LeakGAN现身说法:“对抗中,你可能需要一个间谍!”(今晚8点直播)

AI科技评论按:自生成式对抗性网络 GANs 出现以来,它和它的变体已经无数次在图像生成任务中证明了自己的有效性,也不断地吸引着越来越多的研究人员加入到提高GA...

3229
来自专栏机器学习算法与Python学习

推荐|深度学习领域引用最多的20篇论文,建议收藏!

深度学习是机器学习和统计学交叉领域的一个子集,在过去的几年里得到快速的发展。强大的开源工具以及大数据爆发使其取得令人惊讶的突破进展。本文根据微软学术(acade...

785
来自专栏CVer

[计算机视觉论文速递] 2018-05-24

这篇文章有5篇论文速递信息,涉及活体检测、SFM、视差估计、Zero-short Learning和3D shape等方向(含一篇CVPR 2018)。

1032
来自专栏AI2ML人工智能to机器学习

从非结构化文本中提取知识

从人们在互联网上的公开话语中, 可以提取到异常多的信息。 在Heuritech,我们使用这些信息来更好地了解人们想要什么,他们喜欢什么产品以及原因。 这篇文章从...

1051
来自专栏最新技术

有Backprop NEAT的神经网络演化的游乐场

本演示将尝试使用遗传算法来生成高效但非典型的神经网络结构,采用TensorFlow Playground的数据集进行分类。请尝试在这里进行演示。

5679
来自专栏专知

【干货】最全知识图谱综述#1: 概念以及构建技术

【导读】知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。我们专知的技术基石之一正是知识图谱-构建AI知识体系-...

1.4K5
来自专栏机器之心

CVPR 2018 | 中科大&微软提出立体神经风格迁移模型,可用于3D视频风格化

选自arXiv 作者:Dongdong Chen等 机器之心编译 参与:Nurhachu Null、刘晓坤 近年来,在自然图像上再现名画风格的风格转换技术成为内...

3648
来自专栏机器之心

斯坦福CS231n Spring 2017开放全部课程视频(附大纲)

机器之心报道 参与:机器之心编辑部 CS231n近几年一直是计算机视觉领域和深度学习领域最为经典的课程之一。而最近刚刚结课的CS231n Spring 2017...

27211

扫码关注云+社区