前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2022|上海交大&腾讯优图提出IFRNet:视频插帧新范式&新SOTA

CVPR 2022|上海交大&腾讯优图提出IFRNet:视频插帧新范式&新SOTA

作者头像
Amusi
发布2022-06-13 19:16:04
8530
发布2022-06-13 19:16:04
举报
文章被收录于专栏:CVerCVer

IFRNet: Intermediate Feature Refine Network for Efficient Frame Interpolation

论文:https://arxiv.org/abs/2205.14620

代码:https://github.com/ltkong218/ifrnet

一、摘要

目前流行的视频插帧算法通常依赖于复杂的网络结构,其具有大量的模型参数与较高的推理延迟,这限制了它们在大量实时应用中的使用。在这篇论文中,我们新发明了一个高效的只包含一个encoder-decoder结构的视频插帧网络称为IFRNet,以实现快速的中间帧合成。它首先对输入的两帧图像提取特征金字塔,然后联合refine双向中间光流场和一个具有较强表示能力的中间特征,直到恢复到输入分辨率并得到想要的输出。这个逐渐refine的中间特征不仅能够促进中间光流估计,而且能够补偿缺失的纹理细节,使得所提出的IFRNet不需要额外的纹理合成网或refinement模块。为了充分释放它的潜能,我们进一步提出一个新颖的面向任务的光流蒸馏损失函数来使得网络集中注意力学习对插帧有益的运动信息。与此同时,一个新的几何一致性正则化项被施加到逐渐refine的中间特征来保持其较好的结构布局。在多个公认的视频插帧评测数据集实验中,所提出的IFRNet和相关优化算法展现出了state-of-the-art的插帧精度与可视化效果,同时具有极快的推理速度。

二、研究背景

目前取得SOTA结果的插帧方法大都采用基于光流的方案,因为光流可以显示地描述逐像素的运动和对应关系,这在大运动场景中尤为重要。我们将已有的基于光流的插帧方法按照encoder-decoder的功能进行了如下分类

图(a),光流网FlowNet估计传统光流,中间部分encoder-decoder近似或进一步refine中间光流。图(b),中间光流网直接估计中间光流。(a) 和 (b) 都包含一个独立的合成网来对光流warp的输入帧以及特征进行编码,并合成目标帧纹理。尽管以上方案已经成为基于光流的主流解决思路,但其仍面临如下问题:

1.已有基于光流的插帧算法将中间光流估计与中间帧特征合成分开到多个独立的encoder-decoder网络,这使得这两个重要成分缺乏紧凑的交互,并妨碍了它们的相互提升。

2.已有基于光流的插帧算法采用多个encoder-decoder级联的结构,这使得它们往往具有较大的推理延迟与计算复杂度。

三、模型方法

为了解决以上问题,我们首次将上述分开的中间光流估计与中间特征重建过程合并到一个encoder-decoder网络,并达到了更紧凑的模型结构与更快的推理速度,如图(c)所示。

1. 网络结构

IFRNet网络结构

所提出的IFRNet首先使用encoder网络对两个输入帧分别提取金字塔特征,之后通过coarse-to-fine的多个decoder网络,联合refine双向中间光流和一个具有较强表示能力的中间帧特征,直到达到原始输入分辨率。更准确的中间光流可以backward warp出与目标帧更好对齐的中间帧特征,从而促进中间帧特征重建;另一方面,更好的中间帧特征能够提供更好的锚点(anchor)信息,从而促进中间光流估计。因此,这两者可以相互促进提升。

2. 损失函数

1) 图像重建损失:此损失函数为插帧任务的基本损失函数,目的为了使生成的图像符合目标中间帧

2) 面向任务的光流蒸馏损失:此损失函数通过调整每个像素位置的鲁棒性值来提供更好的面向插帧任务的中间光流监督信息。给定一个现成光流网络的预测结果作为代理标签,我们可以通过公式

计算出鲁棒性掩码P,并通过该鲁棒性掩码在空间上自适应地调整多尺度光流蒸馏损失函数的鲁棒性形式,以获取面向插帧任务的中间光流监督信息。不同的鲁棒性蒸馏损失函数可参见下图

面向任务的光流蒸馏损失可表示为

3) 特征空间几何一致性损失:此损失函数用来保持重建的中间帧特征与Ground Truth中间帧特征具有一致的场景几何布局,从而促进最终目标帧合成质量

总之,IFRNet整体网络架构与优化损失函数如下图所示

IFRNet网络结构及优化目标函数

四、实验结果

实验在Vimeo90K三元组数据集上进行训练,在300个epoch的训练中,学习率从1e-4余弦衰减到1e-5。IFRNet使用4块GPU进行训练,每个GPU的batch size设为6。

1. 2x 视频插帧 定量结果

IFRNet large模型比当前SOTA方法ABME (ICCV 2021) 速度快11.5倍,比SoftSplat (CVPR 2020) 速度快2.5倍,同时取得了更高的视频插帧精度,并消耗更少的计算资源。

2. Middlebury在线评估结果

3. 2x 视频插帧 可视化结果

4. 8x 视频插帧 定量结果

IFRNet在PSNR和SSIM指标上均取得SOTA结果,同时具有更快的推理速度。

5. 8x 视频插帧 可视化结果

五、总结

本文新提出了一个高效的不需要额外级联合成网络或refinement模块的视频插帧深度架构IFRNet。它通过联合refine中间光流与中间特征,使得这两者得以相互促进,并使得最终生成的图像既保持了锋利的运动边界,又包含了丰富的纹理细节。此外,新提出的面向任务的光流蒸馏损失与特征空间几何一致性损失分别促进了中间运动估计与中间特征重建。多个视频插帧数据集上的实验结果证实了所提出的IFRNet及相关优化算法,不仅取得了SOTA的实验结果,同时比已有方法具有更快的推理速度并消耗更少的计算量。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档