适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介

一、背景介绍

随着超高清(UHD,Ultra High Definition)概念的普及,4K分辨率的视频应用越来越受到消费者的青睐。4K分辨率的视频应用在为消费者提供更加精细的细节以及更加生动的体验的同时,对视频信息的传输与存储也提出了更大的挑战。虽然最新一代的视频编码标准HEVC(High Efficiency Video Coding)相比于上一代编码标准压缩性能有近一倍的提升,在应对高分辨率视频应用时其压缩性能仍稍显不足。因此进一步提高压缩效率的先进视频编码技术依旧需要大力研究。

作为人工智能领域的热门研究方向,深度学习通过建立类似于人脑的分层模型结构,通过深层结构对输入数据逐级提取底层到高层的特征,从而很好地建立从底层信号到高层语义的映射关系。基于深度学习的方法在目标检测、目标跟踪、行人重识别等语义级(high level)问题上取得了良好的效果。近年来,基于深度学习的方法在一些像素级(low level)问题比如图像超分辨、图像去块效应等问题上也取得了显著的性能提升。

二、基于深度学习的图像/视频编码相关工作

目前,已有一些研究机构和团队提出了基于深度学习的图像\视频编码方法。谷歌的研究团队提出一种基于RNN的图像压缩技术[1],该网络结构不依赖于当前的混合编码框架。通过使用该压缩网络模型,可以得到不同压缩等级的图像,其在低码率段的率失真性能已经超过JPEG技术,而在高码率段与JPEG基本持平。在视频编码方面,最早基于深度学习的方法被用来做模式选择等快速算法或者用在转码中以加快转码速度。最近,也有一些基于深度学习提高视频编码性能的研究,主要集中在预测、后处理部分。同时,与图像编码中完全换掉原始编码框架不同,基于深度学习的视频编码技术目前是集成到混合视频编码框架中以替换其中的某项技术。Dai等人提出一种基于卷积神经网络(CNN,Convolutional Neural Network)的后处理技术[2],该技术使用基于CNN的方法对压缩编码后的图像处理以消除块效应、模糊等损失。在全帧内编码配置下,平均的BD-Rate性能可以提高4.6%。 Li等人提出一种适用于帧内编码的基于CNN的上采样方法[3],该方法在常规帧内编码前先下采样原始图像,在对低分辨率图像编码之后,使用基于CNN的上采样方法将编码后图像恢复到原始尺寸,相比较于HEVC,使用该方法在帧内模式下的BD-Rate增益可以达到5.5%。Yan等人提出一种基于CNN的帧间预测分像素插值方法,针对每一个分数像素位置都训练一个卷积神经网络,使用经过特定预处理的整像素位置图像分别预测其余的分像素位置,在LDP的编码配置下,平均的BD-Rate增益为0.9%[4]。此外,深度学习在视频编码方面还有一些其它应用,比如使用卷积神经网络预测失真等。

三、基于深度学习的分数像素插值的挑战

在基于块的混合视频编码框架中,运动估计/运动补偿技术可以有效降低视频帧与帧之间的冗余,提高编码效率。为进一步提高压缩效率,更加准确的描述物体在真实世界中的运动情况,通常采用分数像素精度的运动估计进行预测。在HEVC中,采用的是1/4像素精度的运动估计。对于位于整数像素点的预测值,可以直接采用参考帧中的像素值;而对于落在分数像素位置的预测值,由于在参考帧中不存在位于分数像素位置的参考像素,需要利用插值滤波器根据真实存在的整数位置像素值插值生成。在HEVC中,一个8抽头的插值滤波器被用来生成亮度分量二分之一像素位置的像素值而四分之一像素位置的像素值则使用一个7抽头滤波器插值生成。该插值滤波器被称为DCTIF(DCT-based interpolation filter),抽头系数如表1所示。DCTIF的设计基于信号处理理论,而这种人为设计的固定系数的插值滤波器,并不能很好的适应日益增长的视频分辨率以及日趋多样化的视频内容。

表1 DCTIF插值滤波器系数

图1 帧间预测分数像素插值

帧间预测的分数像素插值类似于图像处理中的超分辨率问题,如图1所示,需要利用低分辨率的整数位置图像生成包含分数像素位置的高分辨率图像。对于亮度分量,超分辨率的比例因子为4,而对于色度分量,比例因子为8。然而,帧间预测的分数像素插值过程并不完全等同于超分辨过程。分数像素插值与图像超分辨率主要有两点不同:第一、对分数像素插值而言,分数位置的像素值并不是真实存在的,导致训练过程中缺少Ground_Truth,训练不能顺利进行。第二、分数像素插值只需插值生成分数位置像素而需要保持整数位置像素值,对超分辨率问题而言,并不存在整数位置与分数位置的概念,超分辨率过程一般生成一幅全新的接近原始图像的高分辨率图像。由于这两个问题的存在,直接将用于超分辨率问题的卷积神经网络用于分数像素插值并不合适。

四、最新进展

上海交通大学图像所研究团队提出了一种适用于视频编码帧间预测分数像素插值的卷积神经网络方法,在一定程度上解决了上述问题,在编码性能提升上有不错表现,模型结构清晰合理。该方法选择一个性能良好的超分辨率卷积神经网络作为基本框架,在训练时加入一个权值掩蔽层来区分整数像素与分数像素,同时配合专门设计的数据预处理步骤,可以使训练得到的网络更加符合帧间预测分数像素插值特性,并且可以同时得到所有分数像素位置像素值。其网络结构如下:

图2 帧间预测分数像素插值卷积神经网络结构

图中,基本框架采用VDSR(Very Deep Convolutional Network for Super-Resolution)。VDSR并不直接预测高分辨率图像,而是预测图像细节,即残差图像。使用该预测残差图像的结构,可以极大的加快网络收敛速度,同时收敛后的网络能表现出更好的性能。并且,该网络的另一个优势是使用一个网络即可处理多种比例因子的超分辨率任务。为了在训练中区分整数位置像素与分数位置像素,在原始网络结构中加入一个权值掩蔽层,对整数位置和分数位置使用不同的权值。

同时,为得到训练数据使训练顺利进行,专门针对分数像素插值的网络设计了一套数据预处理方法,其过程如下:

图3 数据预处理过程

首先从原始未压缩图像中按照相对位置关系抽取整数位置像素作为低分辨率图像。由于分数像素插值是在编码重建帧上操作的,为使深度卷积神经网络进一步从包含压缩编码噪声的图像中提取特征,在预处理过程中将原始的低分辨率图像经过HEVC帧内编码模式编码,将编码重建图像作为真正的低分辨率图像。第三步,将编码重建图像使用基于DCTIF的插值方法得到网络的输入图像。

在编码过程中,为使用训练好的卷积神经网络进行分数像素插值,需要先将原始尺寸的整数像素图像使用DCTIF插值到规定尺寸,然后输入卷积神经网络,生成分数位置像素。

表2给出了使用提出的预处理方法以及网络结构训练得到的卷积神经网络进行亮度分量二分之一位置分数像素插值与原始基于DCTIF的插值方法在LDP编码配置下的率失真性能对比。

表2 综合BD-Rate性能比较

参考文献:

[1]. Toderici, George, et al. "Full resolution image compression with recurrent neural networks." arXiv preprint arXiv:1608.05148 (2016).

[2]. Dai, Yuanying, Dong Liu, and Feng Wu. "A convolutional neural network approach for post-processing in hevc intra coding." International Conference on Multimedia Modeling. Springer, Cham, 2017.

[3]. Li, Yue, et al. "Convolutional Neural Network-Based Block Up-sampling for Intra Frame Coding." arXiv preprint arXiv:1702.06728 (2017).

[4]. Yan, Ning, et al. "A Convolutional Neural Network Approach for Half-Pel Interpolation in Video Coding." (2017).

更多论文细节和实验分析详见论文:

Han Zhang,Li Song,Zhengyi Luo,Xiaokang Yang,Learning a Convolutional Neural Network for Fractional Interpolation in HEVC Inter Coding[C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:

http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_HZhang_Learning%20a%20CNN%20for%20Fractional%20Interpolation%20in%20HEVC%20Inter%20Coding.pdf

*本帖中实验结果是在通用测试条件下的结果,而论文中实验结果为测试32帧的结果

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习自然语言处理

【概率笔记】这些概率公理性质你需要会的呀

概率论是AI的基础学科,如果想学的深的话,概率论必不可少的一门呀!概率基础还没有看的小伙伴们,可以看下面的链接啦:

782
来自专栏数据派THU

【一图看懂】计算机视觉识别简史:从 AlexNet、ResNet 到 Mask RCNN

原文:medium 来源:新智元 作者:Đặng Hà Thế Hiển 编译:新智元编辑部 本文长度为5000字,建议阅读8分钟 本文通过一张信息图示,讲述计...

2117
来自专栏用户2442861的专栏

SIFT算法详解

如果你学习SIFI得目的是为了做检索,也许 OpenSSE 更适合你,欢迎使用。

771
来自专栏用户2442861的专栏

Deep Learning回顾#之LeNet、AlexNet、GoogLeNet、VGG、ResNet

作者:我爱机器学习 链接:https://zhuanlan.zhihu.com/p/22094600 来源:知乎 著作权归作者所有。商业转载请联系作者获得...

821
来自专栏机器之心

深度 | 最优解的平坦度与鲁棒性,我们该如何度量模型的泛化能力

2646
来自专栏AI科技评论

干货 | 自从学了这个方法,深度学习再也不愁没钱买数据集了

深度学习大牛吴恩达曾经说过:做AI研究就像造宇宙飞船,除了充足的燃料之外,强劲的引擎也是必不可少的。假如燃料不足,则飞船就无法进入预定轨道。而引擎不够强劲,飞船...

2896
来自专栏WOLFRAM

随机三维图像中可以找到多少动物和阿尔普物形?

1626
来自专栏人工智能头条

腾讯广点通:基于深度学习的图像语义分析及其应用

1696
来自专栏目标检测和深度学习

读完这个你就彻底懂深度学习中的卷积了!

1091
来自专栏新智元

计算机视觉识别简史:从 AlexNet、ResNet 到 Mask RCNN

【新智元导读】 Medium 用户 Đặng Hà Thế Hiển 制作了一张信息图示,用专业、简洁并且最有吸引力的方式——信息图示,讲述计算机视觉(CV)物...

3687

扫码关注云+社区