来源:arXiv 2022 题目:A Coding Framework and Benchmark towards Compressed Video Understanding 作者:Yuan Tian, Guo Lu, Yichao Yan, Guangtao Zhai, Li Chen, Zhiyong Gao 原文链接:https://arxiv.org/abs/2202.02813 内容整理:刘潮磊 视频理解任务在计算机视觉领域备受关注,但是很少研究各种计算机视觉方法在压缩视频上的表现,而在实际场景下,视频理解通常是视频压缩的下游任务。因此,需要研究传输比特率和视频理解性能的权衡。本文提出面向理解的视频编码框架(UVC),引入了轻量可学习分析流来编码下游分析所需信息,兼顾工业编解码器的高效性和深度学习的编码能力。并且,本文利用任务无相关的边缘图保真度作为优化目标,以自监督方式完成对框架的优化,提升了实际部署效果。
背景
目的
特点
贡献
视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人的视觉体验设计的,没有专门为下游AI相关任务设计编码算法。
主要方法有:对比学习(Contrative Learning)、掩码图像建模(Contrative Learning)
图1
图2
D-GFM
图3
;
经过一个卷积得到AdaKM,再用查找表得到AdaK;
。
图4
得到前半、后半分别是
和
,并进行变换得
;
目标:替代目标损失最小化;减少分析流的大小。
要实现无监督就找一个替代目标,本文选择:重建视频的边缘信息与原视频误差最小。
全局边缘信息描述:
(Edge-Net:边缘信息提取器;A:全局聚合操作)
全局边缘信息约束:
(采用对比学习的形式给出,并以余弦相似度为指标)
局部边缘图相似度约束:
下游任务的替代损失:一部分是之前的边缘损失,另一部分是感知损失,用于约束块级别的分布,只有边缘损失的话,只约束到了帧的级别,重建出的视频可能随机性比较大。
分析流比特率:用于约束分析流的大小。
GAN loss:用于约束域间隙,减少不同数据分布或数据源之间的差异而导致的模型性能下降。
图5
图6
图7
本论文提出了一种用于压缩视频理解的编码框架 UVC 。本文的框架继承了传统视频编解码器高效性和神经网络灵活编码能力的优点。实验结果表明,本文的方法在三个下游视频理解任务(动作识别、动作检测和多目标跟踪)上远远优于基准工业编解码器。此外,本文全面构建了针对这一问题的基准测试,涵盖了七个大规模视频数据集。