视频插帧--Video Frame Interpolation via Adaptive Convolution

Video Frame Interpolation via Adaptive Convolution CVPR2017 http://web.cecs.pdx.edu/~fliu/project/adaconv/

本文使用CNN网络完成 frame interpolation,这里我们将像素插值问题看作对相邻两帧中相应图像块的卷积,通过一个全卷积CNN网络来估计 spatially-adaptive convolutional kernel,这些核捕获运动信息和插值系数, capture both the motion and interpolation coefficients, and uses these kernels to directly convolve with input images to synthesize a middle video frame.,如下图所示:

Given two video frames I1and I2, our method aims to interpolate a frame ˆI temporally in the middle of the two input frames

3 Video Frame Interpolation 传统的帧插值方法是 two-step approach: first estimates motion between two frames and then interpolates the pixel color based on the motion 但是光流的计算很容易不稳定 optical flow is not reliable due to occlusion, motion blur, and lack of texture

我们这里的策略是 Interpolation by convolution

将 pixel interpolation 表示为 convolution 的优点: 1)将运动估计和像素合成变为一个步骤可以提高方法的鲁棒性 provides a more robust solution 2)卷积核对一些困难的情况提供了灵活性 the convolution kernel provides flexibility to account for and address difficult cases like occlusion 3)一旦得到卷积核,可以无缝接入advanced re-sampling techniques

3.1. Convolution kernel estimation 卷积核估计 这里我们使用一个 CNN 网络来 estimate a proper convolutional kernel to synthesize each output pixel in the interpolated images.

In our implementation, the default receptive field size is 79 × 79 pixels. The convolution patch size is 41×41 and the kernel size is 41 × 82 as it is used to convolve with two patches

Loss function 这里我们分别设计了 color loss 和 gradient loss,最终的损失函数是 combine the above color and gradient loss as our final loss

4 Experiments Qualitative evaluation on blurry videos

Evaluation on the Middlebury testing set

Qualitative evaluation on video with abrupt brightness change

Qualitative evaluation with respect to occlusion

On a single Nvidia Titan X, this implementation takes about 2.8 seconds with 3.5 gigabytes of memory for a 640 × 480 image, and 9.1 seconds with 4.7 gigabytes for 1280×720, and 21.6 seconds with 6.8 gigabytes for 1920 × 1080.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏machine learning

LDA—基础知识

隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA)是由 David M. Blei、Andrew Y. Ng、Michael...

2387
来自专栏企鹅号快讯

人工智能发展史(六)之受限玻尔兹曼机和深度置信网络那些事儿

上周我们讲述了玻尔兹曼机的原理和相关的算法,我们知道为了使得其达到非常精确的解,需要非常漫长的过程,所以也就导致其应用非常困难。这周我们讲讲受限玻尔兹曼机是怎样...

2207
来自专栏程序生活

End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文摘要简介神经网络结构训练总结

1304
来自专栏Java与Android技术栈

高斯反向投影实现检测图像中的特定物

在图像处理中,我们通常需要设置感兴趣的区域(ROI,region of interest),来简化我们的工作。也就是从图像中选择的一个图像区域,这个区域是我们图...

611
来自专栏小鹏的专栏

03 Linear Regression

Introduction:         线性回归可能是统计学,机器学习和科学中最重要的算法之一。 它是最常用的算法之一,了解如何实现它和其各种avors是非...

3438
来自专栏漫漫深度学习路

Andrew NG 在2016 NIPS 上tutorial 简单总结

Andrew NG 在2016 NIPS 上tutorial 简单总结 水平有限,如有错误,请不吝指正,谢谢! 视频地址youtube 神经网络已经出现很多...

1776
来自专栏数据科学学习手札

(数据科学学习手札17)线性判别分析的原理简介&Python与R实现

之前数篇博客我们比较了几种具有代表性的聚类算法,但现实工作中,最多的问题是分类与定性预测,即通过基于已标注类型的数据的各显著特征值,通过大量样本训练出的模型,来...

42310
来自专栏ml

双边过滤算法

     双边过滤算法作为一种改进的高斯过滤算法,在图像去噪,和均匀模糊(又称为磨皮),去锯齿效应上有不错的效果.双边过滤是采用Raised cosines函数...

34614
来自专栏生信小驿站

factoextra包 聚类分析(2)

聚类分析是一种数据贵呀技术,旨在揭露数据集中观测值的子集。它可以把大量的观测值归为若干个类。这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间的...

702
来自专栏有趣的Python

TensorFlow应用实战-12-编写DCGAN的判别模型

1983

扫码关注云+社区