前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视频插帧--Video Frame Interpolation via Adaptive Convolution

视频插帧--Video Frame Interpolation via Adaptive Convolution

作者头像
用户1148525
发布2018-01-03 15:44:44
2.1K0
发布2018-01-03 15:44:44
举报
文章被收录于专栏:机器学习、深度学习

Video Frame Interpolation via Adaptive Convolution CVPR2017 http://web.cecs.pdx.edu/~fliu/project/adaconv/

本文使用CNN网络完成 frame interpolation,这里我们将像素插值问题看作对相邻两帧中相应图像块的卷积,通过一个全卷积CNN网络来估计 spatially-adaptive convolutional kernel,这些核捕获运动信息和插值系数, capture both the motion and interpolation coefficients, and uses these kernels to directly convolve with input images to synthesize a middle video frame.,如下图所示:

这里写图片描述
这里写图片描述

Given two video frames I1and I2, our method aims to interpolate a frame ˆI temporally in the middle of the two input frames

3 Video Frame Interpolation 传统的帧插值方法是 two-step approach: first estimates motion between two frames and then interpolates the pixel color based on the motion 但是光流的计算很容易不稳定 optical flow is not reliable due to occlusion, motion blur, and lack of texture

我们这里的策略是 Interpolation by convolution

这里写图片描述
这里写图片描述

将 pixel interpolation 表示为 convolution 的优点: 1)将运动估计和像素合成变为一个步骤可以提高方法的鲁棒性 provides a more robust solution 2)卷积核对一些困难的情况提供了灵活性 the convolution kernel provides flexibility to account for and address difficult cases like occlusion 3)一旦得到卷积核,可以无缝接入advanced re-sampling techniques

3.1. Convolution kernel estimation 卷积核估计 这里我们使用一个 CNN 网络来 estimate a proper convolutional kernel to synthesize each output pixel in the interpolated images.

这里写图片描述
这里写图片描述

In our implementation, the default receptive field size is 79 × 79 pixels. The convolution patch size is 41×41 and the kernel size is 41 × 82 as it is used to convolve with two patches

Loss function 这里我们分别设计了 color loss 和 gradient loss,最终的损失函数是 combine the above color and gradient loss as our final loss

这里写图片描述
这里写图片描述

4 Experiments Qualitative evaluation on blurry videos

这里写图片描述
这里写图片描述

Evaluation on the Middlebury testing set

这里写图片描述
这里写图片描述

Qualitative evaluation on video with abrupt brightness change

这里写图片描述
这里写图片描述

Qualitative evaluation with respect to occlusion

这里写图片描述
这里写图片描述

On a single Nvidia Titan X, this implementation takes about 2.8 seconds with 3.5 gigabytes of memory for a 640 × 480 image, and 9.1 seconds with 4.7 gigabytes for 1280×720, and 21.6 seconds with 6.8 gigabytes for 1920 × 1080.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017年10月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档