标题&作者团队
paper: https://arxiv.org/abs/2008.00455
code: https://github.com/junpan19/RSDN
【导语】该文是清华大学&华为诺亚方舟联合提出的一种递归视频超分方案。不同于主流的视频超分方案(基于光流对齐的视频超分、基于形变卷积对齐的视频超分),该文从递归思路出发,提出了一种SD模块用于图像的不同成分复原。所提方法在Vid4数据集取得了超越EDVR-L的性能,同时具有更少的参数量和计算量。推荐各位同学仔细研究一下。
大多视频超分方案采用时序近邻帧辅助参考帧进行超分,这种方式会导致算法过于耗时,在处理效率方面不如递归方案。该文提出一种新颖的递归视频超分方案,它可以高效率且有效的利用前一帧信息对参考帧进行超分。它将输入划分为结构与纹理成分送入到递归单元(它由多个双流结构-纹理模块构成),此外隐状态自适应模块使得当前帧可以从隐状态中选择有用信息辅助超分,提升对于场景切换和误差累计的鲁棒性。作者通过充分实验验证了所提方案的有效性,在多个公开基准数据集均取得了SOTA性能。
在递归神经网络中,t时刻隐状态会进行前面帧的综述信息。当将采用RNN进行视频超分时,隐状态有助于描述场景随时间的运动关系,即包含结构信息也包含细节信息。RLSP采用直接concat方式进行处理,作者认为这种整体处理的方式并非最优,可能会影响模型性能。
下图给出了隐状态中不同通道所描述的前置信息,它们在不同帧、不同位置具有不同的贡献,尤其当存在遮挡、大形变时。
在该文中,作者提出了HSA(Hidden State Adaptation)模块以自适应将隐状态信息作用于当前帧。其实就是动态滤波器的应用,见下图。个人感觉这块没什么新颖的,对这块感兴趣的可以去看一下VSRDUF一文,也可以与笔者沟通讨论。
由于所提RSDN包含两个分支,那么两个分支的监督信息的均衡就变得非常重要。不平衡的监督会导致结果过于锐化或者模糊。为缓解该问题,作者提出了如下损失,它包含三种损失函数:
训练数据:Vimeo90K,降质方式为blur-down,测试数据Vid4、UDM10。直接上结果咯。
作者首先给出了网络结构的消融实验结果,见下表。
最后作者给出所提方法与其他视频超分方法在Vid4与UDM10上的性能对比以及视觉效果。可以看到所提方法取得了超越EDVR的性能,甚赞!不过在Vimeo数据集上还是EDVR更优。
全文到此结束,对该文感兴趣的同学建议去看原文。