面向视频编解码后处理的深度学习方法进展

文章来源：企鹅号 - 媒矿工厂

接前一帖（适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介），今天继续介绍一类基于人工智能的视频处理技术——深度学习在视频后处理中的应用。

1 背景介绍

视频以及图像的有损压缩算法会造成较为严重的失真以及效应，比如，基于块的编码策略将会引起块效应；高频分量的缺失会造成压缩后的图像会更加模糊，还有振铃效应，颜色偏移等等。特别是在编码是在较差的编码配置下（低比特率）尤为明显。这些效应会严重降低用户体验，所以如何去除这些效应或者削弱这些效应的影响也就成为一个重要的问题。

在新一代视频编码标准HEVC（High Efficiency Video Coding）中，采用两种环路滤波的方案来削弱这些效应：去块滤波器以及SAO（样点自适应补偿）。从名字上来看，去块滤波器主要针对受损视频的块效应。而SAO则使用附加的偏置来补偿其他的效应，这个偏置通过编码器计算并且随着码流传输到解码器辅助解码，[1]说明SAO可以实现3.5%的BD-rate下降。

随着人工智能近几年热度逐渐上升，其算法深度学习也在更广泛的领域中发挥作用。它采用深层神经网络来提取数据的表征，并且将其组合为高层语义特征，构造一个非线性映射。在计算机视觉领域，图像识别，图像标记，目标跟踪等高层次任务上已经得到了很好的效果，而在诸如图像的超分辨率以及降噪等低层次视觉任务中，深度学习也逐渐展现出其优越的性能。

2 深度学习在视频后处理中的应用

目前深度学习在视频后处理上的应用可以分为两类，一类是环内滤波，一类是环外滤波。环内滤波指的是在HEVC编码环中，使用深度学习网络来替换原来的后处理模块来提升编码性能，如图1。

图1 环内滤波示意，使用IFCNN来替换原有的SAO滤波[2]

环外滤波则不需在HEVC编码环中进行替换，正常编码的码流在解码端解码完成后使用神经网络后处理滤波即可。在编码端也可以提供一些辅助解码的参数信息，作为边信息融入码流中进行传输。

2.1 环内滤波

2.1.1 IFCNN

Park和Kim[2]首先提出一种使用卷积神经网络来进行环内滤波的方法，具体的结构如图1所示，采用神经网络替换HEVC后处理技术中的SAO。网络结构如图2所示。

图2 IFCNN网络结构图

该网络整体由三个卷积层构成，引入残差网络的思想，使得神经网络不需要直接生成高质量的图像，而只需要学习高质量图像与压缩受损图像之间的残差即可，这样就加快了训练的速度，保证了收敛性。为了让神经网络的训练更加贴合编码本身，作者令视频序列通过关闭SAO的编码器，将重建的YUV文件以及其对应的Ground_truth组合作为训练集。

作者对ALL-Intra模式以及LDP、RA模式分别训练网络模型，然后将其整合到HEVC参考软件HM 16.0中，实验结果如表1所示。

表1 IFCNN客观性能测试（与原始编码算法相比）

这项技术一个缺陷是训练和测试集都选自同一视频序列，虽然取不同帧，但是由于一组序列帧与帧间的内容和分布很相似，所以训练处模型的推广能力不足，不过也证明了深度学习在视频后处理这个领域的极大潜力。

2.1.2 VRCNN

Dai等[3]在IFCNN的基础上，提出一种多滤波器尺寸的卷积神经网络结构来进行后处理，使用网络模型完全替换后处理模块来提升编码性能。作者参考GoogleNet[4]的思想，增加网络深度的同时，也在网络宽度上进行扩展，即使用多个小尺寸的卷积窗的并行组合来替换单个大尺寸卷积核，不同尺寸的卷积核可以提取到不同层次的图像特征，因此使用这种方法，可以在一层中整合图像的多种特征，有利于图像的重建。网络结构如图3。

图3 VRCNN网络结构[3]

在此结构中，第二层和第三层网络均使用两个并行且尺寸不同的卷积核对特征图进行提取，并且按通道整合在一起。这里仍然使用残差连接的思想，神经网络只需学习受损图像与Ground_Truth之间的残差，从而加速网络收敛，削弱过拟合的影响。为了提升模型的推广能力，在此作者使用自然图像作为训练集，自然图像具有较为广泛的统计特性与特征，因此可以覆盖绝大多数的视频情景。将图片输入关闭去块滤波器和SAO的HM编码器，得到的重建码流即可作为训练输入数据。这项技术中，只对ALL-Intra的编码模式进行测试，同时每个序列只对第一帧进行测试，客观测试性能见表2。

表2 VRCNN的客观测试结果（与原后处理算法）

2.1.3 MMS-Net

ICIP 2017中，Kang和Kim等[5]提出一种多模型/多尺度的卷积模型来提升后处理性能，多尺度的CNN结构能够有效提高图像的重建性能。另外编码视频中的CTU（编码树单元）信息可以指导网络正确检测和去除分块伪影，作者也使用CU（编码单元）和TU（变换单元）信息这类编码参数来对重建进行辅助。网络模型见图4。

图4 MMS-Net模型[5]

结构图中CP指的是编码参数，文章中具体位置CU和TU信息。D指的是受损的图像，Rk代表第k个尺度模型恢复的图像，G则代表Ground_truth。提取到的编码参数首先需要经过预处理，将CU（或TU）边界像素值设为2，非边界区域像素设为1，如图5。之后将处理后的CP图输入到一个自适应网络中（见图4左上角），将CP信息转换为图像的特征空间，并投影到单通道特征图中。该特征图与输入的受损图像逐元素相乘，作为旁路信息输入到多尺度网络中。

图5 提取CU信息的一个实例

多尺度图像复原可以看为在多尺度空间中的分层处理，可以使恢复后的图像在精细尺度上保留一些较小的细节也可以在较粗的尺度上保留长时依赖。在图4中可以看到模型有两个尺度的连续网络。粗尺度网络从半尺寸输入图像中恢复损伤图片，再通过精细网络进一步修饰与恢复。在图4半尺度网络（Half-scale Network）中，输入帧是通过步长为2 的卷积层进行下采样而不需要在网络外部对图像尺寸进行调整，最后再使用反卷积层将其上采样至原始图像尺寸，嵌入在网络中的插值结构也简化了整个系统的处理过程。网络的主体参照了Res-Net，采用多个残差块级联的方法加速收敛。

作者使用Xiph.org Video Test Media[6]中的28个HD视频作为训练集，在全帧内模式下的重构序列作为输入数据，全帧内条件下测试性能见表3。

表3 MMS-Net及其他网络性能的比较

2.2 环外滤波

上面简述的三种环内滤波方法均是在HEVC编码环中代替部分或者全部后处理模块，这种方法编码出的码流在解码时，需要再通过神经网络进行处理。下面将介绍一种环外滤波的思路。

Wang和Chen等[7]提出在解码器后加入神经网络模型来提升视频的重建质量。同时因为HEVC支持多种尺寸的变换单元（TU），使用码流中的TU信息来选择训练集的图像块大小，而作者也说明这种方法比统一采样的训练数据得到的结果更具鲁棒性。文中使用的网络结构如图6。

图6 DCAD网络结构

参考深层超分辨率网络VDSR，该网络堆叠10层卷积并且只使用ReLU作为激活单元，每一层的卷积核则为3*3。与VRCNN一样使用400张自然图片作为训练集，使用HM 16.0压缩后作为输入训练数据。训练好的模型在AI，LDP，LDB以及RA四种模式下进行测试，测试结果见表4。

表4 DCAD在四种编码模式下的测试结果（与HEVC baseline相比）

上海交通大学研究团队同样提出一种环外后处理滤波的编解码结构[8]，与DCAD相似，使用VDSR作为网络模型训练处理。但在此基础上，于编码器前加入一个分类的模块，用来提取每一帧图像的统计信息，并使用K-means算法将其分类。具体的架构见图7。

图7 编解码器架构

考虑到CNN在图像重建上的应用本质上是对图像底层统计特征提取并且重组的过程，这里预先对输入序列进行统计分类是合理的。分类信息也将作为辅助信息嵌入到编码码流之中。而后处理模块也将提取这些辅助信息选用不同的模型进行处理。

该论文更多细节可见于往期文章：视频编码性能提升新途径——面向编码的动态预/后处理技术

3 总结

深度学习模型通过学习受损图像与ground_truth之间的端对端映射，对压缩的视频进行有效的滤波处理。通过上述方案的描述，我们可以看出深度学习在视频滤波这一领域上的极大潜力。但是当前提出的技术主要在全帧内模式下发挥作用，一旦开启码率控制，性能就会变得不稳定。因此一方面应考虑更适合帧间编码的训练策略或者网络结构，另一方面应注意图像视频本身的统计特性，将其加入到模型中辅助重建。

4 参考文献

[1] Fu C M, Alshina E, Alshin A, et al. Sample adaptive offset in the HEVC standard[J]. IEEE Transactions on Circuits and Systems for Video technology, 2012, 22(12): 1755-1764.

[2] Park W S, Kim M. CNN-based in-loop filtering for coding efficiency improvement[C]//Image, Video, and Multidimensional Signal Processing Workshop (IVMSP), 2016 IEEE 12th. IEEE, 2016: 1-5.

[3] Dai Y, Liu D, Wu F. A convolutional neural network approach for post-processing in hevc intra coding[C]//International Conference on Multimedia Modeling. Springer, Cham, 2017: 28-39.

[4] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.

[5] Kang J, Kim S, Lee K M. MULTI-MODAL/MULTI-SCALE CONVOLUTIONAL NEURAL NETWORK BASED IN-LOOP FILTER DESIGN FOR NEXT GENERATION VIDEO CODEC[J].

[6] “Xiph.org video test media,” Available at https://media.xiph.org/video/derf/.

[7] Wang T, Chen M, Chao H. A Novel Deep Learning-Based Method of Improving Coding Efficiency from the Decoder-End for HEVC[C]//Data Compression Conference (DCC), 2017. IEEE, 2017: 410-419.

[8] C. Li, Li Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC,” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017.

发表于: 2017-12-212017-12-21 22:12:44
原文链接：http://kuaibao.qq.com/s/20171221G0Z5AZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

面向视频编解码后处理的深度学习方法进展

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐