来源: IBC2021 主讲人:Sebastien Pelurson 内容整理:张一炜 本次演讲是对论文《AI based saliency-aware video coding》的讲解。在这篇论文中,介绍了使用基于深度学习的显著性图预测的方式来进行编码的前处理,并将显著性图信息用于改进码率控制的过程以实现更好的客观质量与码率节省。
目录
显著性是某些事物突出的特性。对于图片来说,当图片的内容不是很复杂时,显著性区域可以比较容易的划分出来。一般来说,在图片中存在运动物体、前景物体、以及不相关的物体时,会导致显著性检测的结果更容易出现问题。
目前,通过神经网络的方法可以实现较好的显著性检测效果。两种有效的方法分别为 Fixation Prediction(FP) 与 Salient Object Detection(SOD)。FP可以检测标注出人眼感兴趣的点,SOD 则可以实现对不同显著性区域进行检测标注。

显著性检测方式
事实上,图片的显著性检测与人眼视觉系统是相契合的。由于人眼存在视觉聚焦机制,在观看一张图片时,主要的观察对象也是图片中的显著性部分。因此可以在视频编码中利用显著性检测,进一步针对人眼视觉的冗余信息进行消除。
利用人眼的视觉聚焦机制,可以通过降低视频中的非显著性区域的分辨率,保留显著性区域的分辨率不变,来尽可能的减小视觉质量的损失和降低码率大小。在显著性区域的划分上,可以使用现有的成熟的显著性检测模型来实现不同区域的定义。并且,在编码过程中,也可以利用显著性检测的相关信息来辅助编码的过程。
下图展示了基于显著性的感知视频编码流程。具体包括了预处理、显著性图计算、基于显著性的滤波、预分析、码率控制以及编码过程。其中显著性检测的结果将会用于辅助码率控制的过程。并且,在该框架中,需要使用的编码器与之前的处理过程解耦,可以选择不同标准的编码器进行编码。

基于显著性的视频编码流程
在得到显著性图后,需要对图中的显著性区域与非显著性区域进行区分。作者采用了带通滤波器的形式,通过调整滤波器的系数,来实现滤波后得到不同范围大小的显著性图。滤波器实现了对显著性图的线性映射,滤波后的数值大小反应了不同的显著性程度,取出滤波后的较大数值构成对显著性区域的划分。

显著性滤波器
基于显著性的码率控制主要是通过自适应调整 QP 大小来实现,即根据显著性区域的划分,对不同的区域采用不同大小的量化参数。增大非显著性区域的 QP 值以减小部分码率,且该部分质量变差对人眼视觉质量的影响较小,并减小显著区域的 QP 值来实现更好的人眼主观质量。
具体来说,作者将该方法集成到了 HEVC 的码率控制模块中。根据显著性图滤波得到的显著性值来分别调整每一个宏块的 QP 大小。
显著性值由显著性区域滤波器滤波得到的大小来划分。由于滤波后的结果为0~255之间的连续值,因此通过将其分段来决定不同大小等级的显著性。在本文中,作者采用了划分成4段的方式,来得到4个不同的显著性等级。
对于宏块 QP 大小的调整是根据宏块显著性值来决定,而对于一个宏块的显著性值,是由该宏块内所有像素的显著性值的平均值来得到。
最后,则是根据显著性等级来获得用于缩放 QP 大小的显著性系数。显著性系数的计算不仅需要参考显著性等级,还需要对该部分的重建质量情况进行考虑。如果只根据显著性等级来调整,会导致在低码率时非显著区域的质量下降严重。
因此,作者提出采用根据显著性等级与重建质量情况来决定调整 QP 的显著性系数的方法。在计算显著性系数时,会综合判断显著性等级、质量系数与显著性百分比来决定。质量系数是当前质量与整体平均质量的比值,如果质量系数较小则表明当前重建质量已经较差,不应当再较大幅度的缩放 QP 大小。而显著性百分比则是当前图片的显著性区域的像素数占图片整体像素数的百分比,以避免图像中显著性区域过大或过小时导致质量波动明显。该部分具体的计算公式如下图所示。

显著性系数的计算
在本文中,作者采用的显著性区域检测的模型如下图所示。该模型为基于深度学习的自编解码器模型。

显著性区域检测模型
在具体计算显著性图时,由于模型所需的输入图片大小为320\times 240 。因此首先需要将输入的视频帧下采样到该分辨率后输入到模型,再将输出的显著性图上采样回原始的分辨率。
在实验部分,作者对上述方法处理后编码重建视频的主观质量和客观质量分别进行评测。在实验过程中,所选择的编码器为 HEVC, 并选用有多样化内容的视频序列作为测试集,且视频的分辨率限制在 1080p。
下图展示了测试序列的显著性检测结果。

测试序列显著性图
在 BasketBallDrive 序列上的客观质量比较结果如下图所示。从客观质量上来看,根据显著性调整不同的 QP 值并不会使整体的压缩效率提升。在高码率点,该方法可以与 Baseline 的 RD 性能相近,而在低码率点略微下降。

客观质量对比结果
为了更好的对比该方法对人眼的效果,还需要进行主观测试。本文中的主观测试遵循 ITU-T P.910的标准。主观测试的结果如下图所示。图中的蓝点为平均分数,绿色方框代表码率节省情况。对于每一个测试序列来说,都可以取得一定的码率节省,其主观质量也与 Baseline 接近。

主观测试结果
对测试结果分析可以发现,在质量上有所下降的序列,都是由于显著性检测的结果并不好所导致。如下图所示。

错误的显著性图预测
本次演讲介绍了一种基于深度学习的显著性感知编码方式,用于编码的前处理和码率控制的过程。该方法可以在平均相同的主观质量下实现 17% 的码率节省,其效果比较依赖于准确的显著性图计算结果。
在未来改进的方向上,可以使用更加真实的编码数据作为数据集对显著性图预测模型进行改进,并且可以将视频中的时域信息也考虑进来。
最后附上演讲视频:
http://mpvideo.qpic.cn/0bc3t4aawaaaqyaaaqhvq5qvbh6dbopqacya.f10002.mp4?dis_k=10047f5b94fb179c48588dd2247c02c5&dis_t=1645152852&vid=wxv_2245745165724499969&format_id=10002&support_redirect=0&mmversion=false