回归本真，焕发新生——基于光流生成对抗网络的视频超分

腾讯多媒体实验室

发布于 2021-05-14 10:10:12

1.1K0

发布于 2021-05-14 10:10:12

腾讯多媒体实验室专栏

随着5G网络的逐渐普及，更快的传输速度、更低廉的价格使得高清视频得以在终端进行展示。在高清视频的应用上，超分技术扮演着重要的角色。超分技术分为图像超分辨和视频超分辨，其中视频超分辨技术不仅需要生成细节丰富的一帧帧图像，还要保持图像之间的连贯性，有更大的技术挑战。腾讯多媒体实验室的视频超分能力可以明显地细化边界、增加细节，同时保持视频序列帧间的一致性。

一、问题分析

在视频超分辨率任务中，基于深度学习的方法中主要使用标准损失函数，如均方差损失(Mean Square Error,MSE)。当出现一些高频分量(例如细节，边缘)时，使用均方差损失函数容易生成过度平滑的画面内容，使得细节不够丰富。如果视频中有明显的压缩失真或噪声，为了抵消均方差损失无法衡量画面结构相似性的缺陷，一些方法使用SSIM(structural similarity index)结构相似性度量作为网络的损失函数来提升画面的主观质量。与图像超分相比，视频超分的主要难点在于如何获取清晰、一致的画面内容，且不会出现不自然的伪影、帧间闪烁。基于均方差损失或者SSIM的方法在提升画面细节方面能力较弱，而基于生成对抗网络(GAN)的超分方法能生成更丰富的画面细节。尽管对抗训练可以改善单个图像的视觉质量，但它并不常用于视频，因为容易出现帧间生成的细节不稳定而引起画面闪烁的情况。在视频超分中，我们需要以较长的帧序列生成稳定的画面细节。

二、解决方案

考虑到以上问题，我们使用了一种基于光流的生成对抗网络视频超分算法，其基本模型结构如下图所示。

该算法由一个光流生成器网络和时空判别器网络组成，光流生成器网络由光流估计以及超分网络组成，首先对输入的相邻帧进行流估计，学习帧与帧之间的对齐关系，然后再进行超分，以帮助超分网络进行细节生成，既利用了帧间时序信息，又起到对齐相邻帧的作用，使得帧间的连续性得以保证。我们使用了一个基于时序的时空判别器，区别于普通的以单张图象作为输入的判别器，该判别器的输入是一个帧序列，判别器不仅提取当前帧的空间信息，而且提取帧间的信息差异，使得空间与时序信息能够被同时利用。同时损失函数的设计也考虑了时序信息。

训练过程中，超分网络和光流估计一起训练，在不断的对抗中欺骗时空判别器。时空判别器同时也在优化，形成相互博弈。该时空判别器是重要组成部分，因为它既考虑图像内容又考虑帧间差异，同时兼顾时空信息，并对帧间不连贯性进行惩罚，使得超分网络不断生成与之前帧连续的高频细节。训练完成后，时空判别器则不需要再用，只需要光流估计与超分网络来对输入的连续帧进行超分。本算法利用时空判别器网络对生成网络的输出进行判别，有助于生成网络生成更多的细节，明显地提升了画面的主观效果，并较好地保持了帧间一致性。

三、效果展示

在实际使用时，线上数据具有噪声类型多，场景丰富的特点。基于该算法我们训练出一个泛化能力强的超分模型，具有降噪、画面加清、细节增强的能力。如下图，左边是源视频，右边是超分后的结果，可以发现画面中的块效应、压缩噪声能够很好地被去除，而且头发上的细小纹理被超分出来，人脸上细小的毛孔也能被恢复，整体画面清晰自然。

(点击以下图片，查看超分效果)