丝滑！CVPR 2021 视频插帧论文+开源代码汇总

AI算法与图像处理

发布于 2021-05-07 11:06:33

2.3K0

发布于 2021-05-07 11:06:33

文章被收录于专栏：AI算法与图像处理

从事算法岗经常需要查看最新的研究成果，希望从中能借鉴一些别人的思路。

全世界每天更新的成果太多了，我们没有办法仔细研读每一篇文章，而从摘要入手，获取文章研究的主要内容和成果，与自己目前的需求对比，是否吻合，再决定是否详细研读，无疑能节省大量的时间。

本文将介绍CVPR 2021 视频插帧相关主题的三篇论文，如果你喜欢这样的分享，欢迎给我一个三连鼓励，后续会分享更多其他主题的研究成果。

论文已经放在：

https://github.com/DWCTOD/CVPR2021-Papers-with-Code-Demo

CDFI: Compression-Driven Network Design for Frame Interpolation

论文：https://arxiv.org/abs/2103.10559

代码：https://github.com/tding1/CDFI

基于DNN的帧插值生成给定两个连续帧的中间帧通常依赖具有大量特征的重型模型架构，从而防止它们部署在资源有限的系统上，例如移动设备。提出了一种基于压缩驱动的帧插值网络设计方法，该方案利用模型修剪通过稀疏引入优化，在显著减小模型尺寸的同时，实现了良好的性能。具体地说，我们首先压缩了最近提出的ADACF模型，并证明了一个10×压缩AdaCoF的性能与原始的对应物类似；然后，通过引入多分辨率翘曲模块，进一步改进了压缩模型，提高了多层次细节的视觉一致性。因此，与原ADACF相比，我们仅获得了四分之一的规模，从而获得了显著的性能增益。此外，我们的模型在广泛的数据集中与其他技术状态相比表现良好。最后，所提出的压缩驱动框架是通用的，可以很容易地转换到其他基于dnn的帧插值算法。

主要贡献：

我们提出了一个压缩驱动的视频插值框架，在该框架中，我们对过度参数化进行了反思。我们首先压缩AdaCoF并获得一个紧凑的模型，但性能同样好，然后在其上进行改进。CDFI的pipline 如图2所示。这种回溯的方法导致了优越的性能，可以很容易地转移到任何其他基于DNN的帧插值算法。

Deep Animation Video Interpolation in the Wild

论文：https://arxiv.org/abs/2104.02495

代码：https://github.com/lisiyao21/AnimeInterp/

在动画产业中，动画视频通常以较低的帧速率制作，因为手工绘制这样的帧既昂贵又耗时。因此，开发能够在动画帧之间自动插值的计算模型是可取的。然而，现有的视频插值方法对动画数据的插值效果并不理想。与自然视频相比，动画视频具有两个独特的特点，使得帧插值困难：1）卡通包含线条和平滑的色彩片段。平滑区域缺少纹理，因此很难在动画视频中估计出精确的运动。2）卡通通过夸张来表达故事。有些运动是非线性的，而且非常大。本文首次对动画视频插值问题进行了形式化的定义和研究。为了应对上述挑战，我们提出了一个有效的框架AnimeInterp，其中包含两个从粗到精的专用模块。具体而言，1）分段引导匹配通过利用分段相干的颜色片段之间的全局匹配来解决“缺少纹理”的挑战。2）递归流细化解决了“非线性和超大运动”的挑战，通过使用变压器式结构的递归预测。为了便于全面的训练和评估，我们建立了一个大规模的动画三胞胎数据集ATD-12K，该数据集包含12000个三胞胎和丰富的注释。大量实验表明，该方法优于现有的动画视频插值方法。值得注意的是，AnimeInterp在野外动画场景中表现出良好的感知质量和鲁棒性。

整体架构：

本文的主要贡献如下：

1）首次对动画视频插值问题进行了形式化的定义和研究。这个问题对学术界和工业界都有重要意义。

2）针对动画中纹理不足和非线性运动量大的问题，提出了一种有效的动画插值框架&动画插值框架，该框架由两个专用模块组成。大量实验表明，AnimeInterp在数量和质量上都优于现有的最新方法。

3）我们建立了一个大规模的卡通三元组数据集ATD-12K，该数据集具有代表多种动画类型的大内容多样性，用于测试动画视频插值方法。鉴于ATD-12K的数据量和丰富的注释，它将为今后的动画研究铺平道路

FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation

论文/paper：https://arxiv.org/abs/2012.08512 | 主页 | Homepage

代码/code：https://github.com/tarun005/FLAVR

视频帧插值的大多数方法都是计算图像相邻帧之间的双向光流，然后采用合适的扭曲算法生成输出帧。然而，依赖光流的方法往往无法直接从视频中模拟遮挡和复杂的非线性运动，并引入了不适合广泛部署的额外瓶颈。我们利用FLAVR解决了这些限制，它是一种灵活高效的架构，使用3D时空卷积来实现视频帧插值的端到端学习和推理。我们的方法有效地学习非线性运动、复杂遮挡和时间抽象的推理，从而提高了视频插值的性能，同时不需要以光流或深度图的形式进行额外的输入。由于它的简单性，FLAVR可以提供3个×与目前最精确的多帧插值方法相比，在不损失插值精度的情况下，推理速度更快。此外，我们在广泛的具有挑战性的环境中评估了FLAVR，并在各种流行的基准（包括Vimeo-90K、UCF101、DAVIS、Adobe和GoPro）上与先前的方法相比，一致地证明了优越的定性和定量结果。最后，我们证明用于视频帧插值的FLAVR可以作为一个有用的自我监督任务，用于动作识别、光流估计和运动放大。

整体框架：