视频插帧--Video Frame Interpolation via Adaptive Convolution

Video Frame Interpolation via Adaptive Convolution CVPR2017 http://web.cecs.pdx.edu/~fliu/project/adaconv/

本文使用CNN网络完成 frame interpolation,这里我们将像素插值问题看作对相邻两帧中相应图像块的卷积,通过一个全卷积CNN网络来估计 spatially-adaptive convolutional kernel,这些核捕获运动信息和插值系数, capture both the motion and interpolation coefficients, and uses these kernels to directly convolve with input images to synthesize a middle video frame.,如下图所示:

Given two video frames I1and I2, our method aims to interpolate a frame ˆI temporally in the middle of the two input frames

3 Video Frame Interpolation 传统的帧插值方法是 two-step approach: first estimates motion between two frames and then interpolates the pixel color based on the motion 但是光流的计算很容易不稳定 optical flow is not reliable due to occlusion, motion blur, and lack of texture

我们这里的策略是 Interpolation by convolution

将 pixel interpolation 表示为 convolution 的优点: 1)将运动估计和像素合成变为一个步骤可以提高方法的鲁棒性 provides a more robust solution 2)卷积核对一些困难的情况提供了灵活性 the convolution kernel provides flexibility to account for and address difficult cases like occlusion 3)一旦得到卷积核,可以无缝接入advanced re-sampling techniques

3.1. Convolution kernel estimation 卷积核估计 这里我们使用一个 CNN 网络来 estimate a proper convolutional kernel to synthesize each output pixel in the interpolated images.

In our implementation, the default receptive field size is 79 × 79 pixels. The convolution patch size is 41×41 and the kernel size is 41 × 82 as it is used to convolve with two patches

Loss function 这里我们分别设计了 color loss 和 gradient loss,最终的损失函数是 combine the above color and gradient loss as our final loss

4 Experiments Qualitative evaluation on blurry videos

Evaluation on the Middlebury testing set

Qualitative evaluation on video with abrupt brightness change

Qualitative evaluation with respect to occlusion

On a single Nvidia Titan X, this implementation takes about 2.8 seconds with 3.5 gigabytes of memory for a 640 × 480 image, and 9.1 seconds with 4.7 gigabytes for 1280×720, and 21.6 seconds with 6.8 gigabytes for 1920 × 1080.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

周末轻松一刻,欣赏完全由程序自己回忆的视频片段

982
来自专栏CVer

【CVPR 2018 行人重识别】相关论文介绍(下)

上次Amusi很荣幸邀请linolzhang大佬分享关于深度学习的行人重识别方向相关论文整理的文章。由于篇幅有限,上次只介绍了部分论文内容和文献,本文将继续介绍...

2393
来自专栏编程

Adam那么棒,为什么还对SGD念念不忘(1)

“说到优化算法,入门级必从 SGD 学起,老司机则会告诉你更好的还有AdaGrad / AdaDelta,或者直接无脑用 Adam。可是看看学术界的最新 pap...

2205
来自专栏AI科技大本营的专栏

重磅 | 128篇论文,21大领域,深度学习最值得看的资源全在这了(附一键下载)

从全局到枝干、从经典到前沿、从理论到应用、还有最新的研究...,所有你不需要的需要的,现在不需要的未来需要的,你不需要的周边小伙伴需要的...反正全都在这了。拿...

6357
来自专栏一棹烟波

全景图转水晶球视图原理详解

前一篇博客中讲到怎么由全景图转到小行星,这次换一种投影方式说下由全景图转到水晶球模式。

264
来自专栏CreateAMind

神经网络里的信息存储在哪里?如何更好的存储和提取?

神经元的活性和神经元之间的权重都存储了重要信息,有没有更好的存储方式呢?如何向生物记忆学习呢?

652
来自专栏机器之心

学界 | 上海交大卢策吾团队开源PointSIFT刷新点云语义分割记录

论文:PointSIFT: A SIFT-like Network Module for 3D Point Cloud Semantic Segmentatio...

1503
来自专栏AI研习社

基于深度学习的医疗影像论文汇总(Deep Learning Papers on Medical Image Analysis)

看到好东西,怎么能不分享呢。 第一次在知乎翻译,由于水平有限(不是谦虚的那种有限,是真的有限),有不准确的地方还望包涵,最重要的是,还望大佬们多多指正! B...

4648
来自专栏AI研习社

Kaggle 机器学习之模型融合(stacking)心得

此文道出了本人学习 Stacking 入门级应用的心路历程。 在学习过程中感谢 @贝尔塔的模型融合方法(http://t.cn/R62UGLF),以及如何在 K...

3486
来自专栏专知

【专知荟萃09】目标检测知识资料全集(入门/进阶/论文/综述/视频/代码等)

目标检测(物体检测, Object Detection) 专知荟萃 入门学习 进阶文章 综述 Tutorial 视频教程 代码 领域专家 入门学习 图像目标...

51811

扫码关注云+社区