刷新REDS4数据集记录！多级视频超分辨率算法：PP-MSVSR

CV君

发布于 2021-12-24 13:36:09

1.2K0

发布于 2021-12-24 13:36:09

文章被收录于专栏：我爱计算机视觉

本文将局部窗口方法与循环方法相结合，在REDS4数据集上超越了BasicVSR++实现了SOTA，代码已开源！

详细信息如下：

作者单位：百度
论文名称：PP-MSVSR: Multi-Stage Video Super-Resolution
论文链接：https://arxiv.org/pdf/2112.02828.pdf
项目链接：https://github.com/PaddlePaddle/PaddleGAN

01 看点

VSR任务的关键是充分利用帧间的互补信息来进行重构。由于来自不同帧的图像具有不同的运动和场景，因此准确对齐多帧并有效融合不同帧一直是VSR任务的关键研究工作。为了利用相邻帧丰富的互补信息，本文提出一个多级VSR架构PP-MSVSR，它采用局部融合模块、辅助损耗和重对准模块逐步细化增强结果。具体来说，

为了加强特征传播中的跨帧特征融合，在阶段一设计了局部融合模块，在特征传播前进行局部特征融合
在阶段二引入了一个辅助损失，使传播模块获得的特征保留更多的连接到HR空间的信息
在三阶段三引入了一个重新对齐模块，以充分利用前一阶段的特征信息 02 方法

Overview

PP-MSVSR结构如下图所示，该网络结合了滑动窗口VSR和循环VSR的思想，并使用多阶段策略执行恢复任务。

网络首先从每个视频帧中提取特征，然后通过阶段一的局部融合模块进行相邻帧融合：

f_{L F M}^{i}=\mathcal{F L M}\left(g_{i-1}, g_{i}, g_{i+1}\right)

后续使用与BasicVSR++相同的结构来融合不同帧和局部合并特征的信息，然后二阶段在每个帧之间传播底层信息。另添加了一个辅助损失，使特征更接近HR空间。三阶段提出一个再对准模块（RAM），它集成了二阶段的偏移量和掩膜，以便于精确的运动补偿：

f_{\text {aligned }}^{i+1}=\mathcal{R} \mathcal{A M}\left(f_{2}^{i}, f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}\right)

其中和为二阶段的偏移量和掩膜。对齐的特征依次进行融合、重构和上采样，获得SR。

局部融合模块

受滑动窗口思想的启发，本文在一阶段设计了一个局部融合模块LFM以加强特征传播中的跨帧特征融合。LFM的目的是让当前帧的特征首先融合其相邻帧的信息，然后将融合后的特征发送到传播模块，如下图所示。

整体架构为相邻帧可变形卷积然后通道叠加送入残差快进行特征提取。

辅助损失

在二阶段添加了一个辅助损失，使特征更接近HR空间，定义为：

A u x L o s s=\frac{1}{N} \sum_{i=0}^{N} \sqrt{\left\|U p\left(f_{\text {stage } 2}^{i}\right)-Y_{g t}^{i}\right\|^{2}+\varepsilon}

其中为二阶段传播后的特征，为GT。

再对准模块

在使用双向递归神经网络的过程中，经常会有多个相同的对齐操作。为了充分利用先前对齐操作的结果，本文提出了一个再对准模块RAM，它可以利用先前对齐的参数并获得更好的对齐结果，如下图。

先前的掩模和偏移量用于预对齐特征：

其中表示变形卷积，然后对预对齐特征与参考帧特征叠加进行卷积输出掩膜和偏移量：

\hat{o}_{3}^{i+1 \rightarrow i}, \hat{m}_{3}^{i+1 \rightarrow i}=\operatorname{Conv}\left(\operatorname{concat}\left(\hat{f}_{2}^{i+1}, f_{2}^{i}\right)\right)

然后将上述对应的参数相加进行对齐：

\hat{f}_{\text {aligned }}^{i+1}=\mathcal{D}\left(f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}+\hat{o}_{3}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}+\hat{m}_{3}^{i+1 \rightarrow i}\right)

然后合并对齐的特征以重建恢复的图像。

PP-MSVSR-L

本文还介绍了一个更大的VSR模型，称为PP-MSVSR-L。具体而言，考虑到BasicVSR++是目前VSR任务中最先进的方法，本文增加了特征通道、输入帧和PP-MSVSR模型的主干块和重建块，使新的模型的参数与BasicVSR++一致，从而得到我们的PP-MSVSR-L。实验结果表明，PP-MSVSR-L的性能优于BasicVSR++，达到了最先进的性能 03 实验