适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介

一、背景介绍

随着超高清(UHD,Ultra High Definition)概念的普及,4K分辨率的视频应用越来越受到消费者的青睐。4K分辨率的视频应用在为消费者提供更加精细的细节以及更加生动的体验的同时,对视频信息的传输与存储也提出了更大的挑战。虽然最新一代的视频编码标准HEVC(High Efficiency Video Coding)相比于上一代编码标准压缩性能有近一倍的提升,在应对高分辨率视频应用时其压缩性能仍稍显不足。因此进一步提高压缩效率的先进视频编码技术依旧需要大力研究。

作为人工智能领域的热门研究方向,深度学习通过建立类似于人脑的分层模型结构,通过深层结构对输入数据逐级提取底层到高层的特征,从而很好地建立从底层信号到高层语义的映射关系。基于深度学习的方法在目标检测、目标跟踪、行人重识别等语义级(high level)问题上取得了良好的效果。近年来,基于深度学习的方法在一些像素级(low level)问题比如图像超分辨、图像去块效应等问题上也取得了显著的性能提升。

二、基于深度学习的图像/视频编码相关工作

目前,已有一些研究机构和团队提出了基于深度学习的图像\视频编码方法。谷歌的研究团队提出一种基于RNN的图像压缩技术[1],该网络结构不依赖于当前的混合编码框架。通过使用该压缩网络模型,可以得到不同压缩等级的图像,其在低码率段的率失真性能已经超过JPEG技术,而在高码率段与JPEG基本持平。在视频编码方面,最早基于深度学习的方法被用来做模式选择等快速算法或者用在转码中以加快转码速度。最近,也有一些基于深度学习提高视频编码性能的研究,主要集中在预测、后处理部分。同时,与图像编码中完全换掉原始编码框架不同,基于深度学习的视频编码技术目前是集成到混合视频编码框架中以替换其中的某项技术。Dai等人提出一种基于卷积神经网络(CNN,Convolutional Neural Network)的后处理技术[2],该技术使用基于CNN的方法对压缩编码后的图像处理以消除块效应、模糊等损失。在全帧内编码配置下,平均的BD-Rate性能可以提高4.6%。 Li等人提出一种适用于帧内编码的基于CNN的上采样方法[3],该方法在常规帧内编码前先下采样原始图像,在对低分辨率图像编码之后,使用基于CNN的上采样方法将编码后图像恢复到原始尺寸,相比较于HEVC,使用该方法在帧内模式下的BD-Rate增益可以达到5.5%。Yan等人提出一种基于CNN的帧间预测分像素插值方法,针对每一个分数像素位置都训练一个卷积神经网络,使用经过特定预处理的整像素位置图像分别预测其余的分像素位置,在LDP的编码配置下,平均的BD-Rate增益为0.9%[4]。此外,深度学习在视频编码方面还有一些其它应用,比如使用卷积神经网络预测失真等。

三、基于深度学习的分数像素插值的挑战

在基于块的混合视频编码框架中,运动估计/运动补偿技术可以有效降低视频帧与帧之间的冗余,提高编码效率。为进一步提高压缩效率,更加准确的描述物体在真实世界中的运动情况,通常采用分数像素精度的运动估计进行预测。在HEVC中,采用的是1/4像素精度的运动估计。对于位于整数像素点的预测值,可以直接采用参考帧中的像素值;而对于落在分数像素位置的预测值,由于在参考帧中不存在位于分数像素位置的参考像素,需要利用插值滤波器根据真实存在的整数位置像素值插值生成。在HEVC中,一个8抽头的插值滤波器被用来生成亮度分量二分之一像素位置的像素值而四分之一像素位置的像素值则使用一个7抽头滤波器插值生成。该插值滤波器被称为DCTIF(DCT-based interpolation filter),抽头系数如表1所示。DCTIF的设计基于信号处理理论,而这种人为设计的固定系数的插值滤波器,并不能很好的适应日益增长的视频分辨率以及日趋多样化的视频内容。

表1 DCTIF插值滤波器系数

图1 帧间预测分数像素插值

帧间预测的分数像素插值类似于图像处理中的超分辨率问题,如图1所示,需要利用低分辨率的整数位置图像生成包含分数像素位置的高分辨率图像。对于亮度分量,超分辨率的比例因子为4,而对于色度分量,比例因子为8。然而,帧间预测的分数像素插值过程并不完全等同于超分辨过程。分数像素插值与图像超分辨率主要有两点不同:第一、对分数像素插值而言,分数位置的像素值并不是真实存在的,导致训练过程中缺少Ground_Truth,训练不能顺利进行。第二、分数像素插值只需插值生成分数位置像素而需要保持整数位置像素值,对超分辨率问题而言,并不存在整数位置与分数位置的概念,超分辨率过程一般生成一幅全新的接近原始图像的高分辨率图像。由于这两个问题的存在,直接将用于超分辨率问题的卷积神经网络用于分数像素插值并不合适。

四、最新进展

上海交通大学图像所研究团队提出了一种适用于视频编码帧间预测分数像素插值的卷积神经网络方法,在一定程度上解决了上述问题,在编码性能提升上有不错表现,模型结构清晰合理。该方法选择一个性能良好的超分辨率卷积神经网络作为基本框架,在训练时加入一个权值掩蔽层来区分整数像素与分数像素,同时配合专门设计的数据预处理步骤,可以使训练得到的网络更加符合帧间预测分数像素插值特性,并且可以同时得到所有分数像素位置像素值。其网络结构如下:

图2 帧间预测分数像素插值卷积神经网络结构

图中,基本框架采用VDSR(Very Deep Convolutional Network for Super-Resolution)。VDSR并不直接预测高分辨率图像,而是预测图像细节,即残差图像。使用该预测残差图像的结构,可以极大的加快网络收敛速度,同时收敛后的网络能表现出更好的性能。并且,该网络的另一个优势是使用一个网络即可处理多种比例因子的超分辨率任务。为了在训练中区分整数位置像素与分数位置像素,在原始网络结构中加入一个权值掩蔽层,对整数位置和分数位置使用不同的权值。

同时,为得到训练数据使训练顺利进行,专门针对分数像素插值的网络设计了一套数据预处理方法,其过程如下:

图3 数据预处理过程

首先从原始未压缩图像中按照相对位置关系抽取整数位置像素作为低分辨率图像。由于分数像素插值是在编码重建帧上操作的,为使深度卷积神经网络进一步从包含压缩编码噪声的图像中提取特征,在预处理过程中将原始的低分辨率图像经过HEVC帧内编码模式编码,将编码重建图像作为真正的低分辨率图像。第三步,将编码重建图像使用基于DCTIF的插值方法得到网络的输入图像。

在编码过程中,为使用训练好的卷积神经网络进行分数像素插值,需要先将原始尺寸的整数像素图像使用DCTIF插值到规定尺寸,然后输入卷积神经网络,生成分数位置像素。

表2给出了使用提出的预处理方法以及网络结构训练得到的卷积神经网络进行亮度分量二分之一位置分数像素插值与原始基于DCTIF的插值方法在LDP编码配置下的率失真性能对比。

表2 综合BD-Rate性能比较

参考文献:

[1]. Toderici, George, et al. "Full resolution image compression with recurrent neural networks." arXiv preprint arXiv:1608.05148 (2016).

[2]. Dai, Yuanying, Dong Liu, and Feng Wu. "A convolutional neural network approach for post-processing in hevc intra coding." International Conference on Multimedia Modeling. Springer, Cham, 2017.

[3]. Li, Yue, et al. "Convolutional Neural Network-Based Block Up-sampling for Intra Frame Coding." arXiv preprint arXiv:1702.06728 (2017).

[4]. Yan, Ning, et al. "A Convolutional Neural Network Approach for Half-Pel Interpolation in Video Coding." (2017).

更多论文细节和实验分析详见论文:

Han Zhang,Li Song,Zhengyi Luo,Xiaokang Yang,Learning a Convolutional Neural Network for Fractional Interpolation in HEVC Inter Coding[C]// Visual Communications and Image Processing. IEEE, 2017:1-4.

下载链接:

http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_HZhang_Learning%20a%20CNN%20for%20Fractional%20Interpolation%20in%20HEVC%20Inter%20Coding.pdf

*本帖中实验结果是在通用测试条件下的结果,而论文中实验结果为测试32帧的结果

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

干货 | 基于深度学习的目标检测算法综述(二)

目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基...

342
来自专栏应用案例

从传统方法到深度学习,人脸关键点检测方法综述

人脸关键点检测是人脸识别和分析领域中的关键一步,它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。近些年来,深度学习方法由...

6068
来自专栏大数据文摘

斯坦福CS231N深度学习与计算机视觉第六弹:神经网络结构与神经元激励函数

1676
来自专栏磐创AI技术团队的专栏

深度学习之视频人脸识别系列四:人脸表征-续

【磐创AI导读】本文是深度学习之视频人脸识别系列的第四篇文章,接着第三篇文章,继续介绍人脸表征相关算法和论文综述。在本系列第一篇文章里我们介绍了人脸识别领域的一...

181
来自专栏AI传送门

吊炸天的CNNs,这是我见过最详尽的图解!(下)

1805
来自专栏大数据挖掘DT机器学习

确定权重方法之一:主成分分析

作者:数据小宇军 http://blog.sina.com.cn/s/blog_a032adb90101k47u.html 什么是权重呢?所谓权重,是指某指标...

2536
来自专栏Deep learning进阶路

深度学习论文随记(二)---VGGNet模型解读-2014年(Very Deep Convolutional Networks for Large-Scale Image Recognition)

深度学习论文随记(二)---VGGNet模型解读 Very Deep Convolutional Networks forLarge-Scale Image ...

2480
来自专栏CVer

大牛分享 | 基于深度学习的目标检测算法综述(二)

1. Two/One stage算法改进。这部分将主要总结在two/one stage经典网络上改进的系列论文,包括Faster R-CNN、YOLO、SSD等...

710
来自专栏CreateAMind

如何理解深度学习中的deconvolution networks?

谭旭 https://www.zhihu.com/question/43609045/answer/132235276

811
来自专栏ATYUN订阅号

【测试】技能测试问题和答案:测试图像处理数据科学家的25个问题

1)将以下图像格式匹配到正确的频道数。 灰度 RGB I.1个通道 II.2个通道 III.3个通道 IV.4个通道 A)RGB – > I,灰度-> II...

3395

扫描关注云+社区