前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022)

视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022)

作者头像
CV君
发布2022-09-01 10:47:28
4470
发布2022-09-01 10:47:28
举报

关注公众号,发现CV技术之美

本文将 Seq2Seq 的架构引入到了视频超分中,其次针对光流不准的问题,之前的文章选择使用DCN进行替代,本篇论文『Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration 』从另一个角度出发,通过知识蒸馏的方法来训练更准的光流,想法很好但是相比于DCN的效果还有待进一步的优化。

详细信息如下:

  • 作者单位:清华大学深研院、华为诺亚方舟Lab、ETH Zürich
  • 论文链接:https://arxiv.org/pdf/2205.10195
  • 项目链接:https://github.com/linjing7/VR-Baseline

01

看点

如何正确建模视频序列中的帧间关系是视频恢复中一个重要但尚未解决的问题。本研究中提出一种无监督流对齐Seq2Seq模型来解决这个问题。本文首次探索了在自然语言处理领域已被证明具有序列建模能力的Seq2Seq模型。优化的序列化建模显示了捕获帧之间的远程依赖关系的潜力。

另一方面,使用提出的无监督蒸馏损失训练流估计器,这可以缓解以前基于流的方法的数据差异和不准确的退化光流问题。通过可靠的光流,我们可以在多个帧之间建立精确的对应关系,提高序列对序列模型的潜力。以下笔者将以VSR的角度来对本文进行解析。

02

方法

Overview

S2SVR由编码器、解码器、局部注意和光流估计四个组件构成,如下图所示。

编解码器

局部注意

如上图(a)所示,注意模块允许解码器关注原始序列的不同区域,上下文向量被计算为潜在向量的加权和:

其中

是一个对

位置的输入与位置的输出的匹配程度进行评分的注意模块,采用一个隐含层的前馈网络:

其中

表示前馈网络的第一个和第二个卷积层。

ResConvGRU

编解码器中都使用了一个深度堆叠的ConvGRU,考虑到视频的特点对原有的ConvGRU做了两处修改。首先,在ConvGRU后将多个残差块拼接在一起。此外,引入栈中残差,如下所示:

z_{t}^{l}=z_{t}^{l-1}+F_{b}\left(F_{g}\left(z_{t-1}^{l}, z_{t}^{l-1}\right)\right)

表示残差块,

为ConvGRU,这可以解决消失的梯度问题,允许对长期的时间依赖性建模。

运动补偿与无监督光流估计

为了提高性能,需要在多帧之间建立精确的空间对应关系。本文采用光流估计器进行运动补偿,如上图(b)所示。首先,采用一个流估计器来预测两个连续帧之间的运动。然后扭曲ResConvGRU中的输入隐藏状态

,使其与当前步的输入空间对齐。

以前基于流的运动补偿方法受到合成数据集和真实数据集之间的数据差异以及不准确的LR流的影响。为此,本文提出了一种无监督方案,该方案配备了一种蒸馏损失,以在VSR数据集上训练流估计器,如下图所示:

其中,教师网络

的光度损失是基于两个连续帧中相同物体必须具有相似强度的假设:

\mathcal{L}_{\mathrm{sm}}\left(\mathbf{F}_{12}^{y}\right)=\sum_{d \in x, y} \sum_{p}\left|\partial_{d} \mathbf{F}_{12}^{y}(p)\right| e^{-\left|\partial_{d} y_{1}(p)\right|}
\mathcal{L}_{\mathrm{dis}}\left(\mathbf{F}_{12}^{x}, \mathbf{F}_{12}^{y}\right)=\sum_{p}\left|\mathbf{F}_{12}^{y}(p)-F_{u}\left(\mathbf{F}_{12}^{x}\right)(p)\right|

其中

是上采样操作,学生网络稍后将用作运动补偿的光流估计器,实现中采用了一个轻量级流模型pwclite作为光流网络。

03 实验 定量评估

在BI的REDS4上峰值信噪比为31.96dB(BasicVSR++为32.39dB),Vimeo-90K-T的峰值信噪比为37.63dB(VRT为38.20dB)。

定性评估

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 看点
  • 03 实验 定量评估
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档