视频插值--Video Frame Interpolation via Adaptive Separable Convolution

Video Frame Interpolation via Adaptive Separable Convolution ICCV2017 https://github.com/sniklaus/pytorch-sepconv

本文将视频插帧看作一个局部分离卷积,对输入帧使用一组 1D 核。 这么做可以极大的减少参数量,加快速度。 formulates frame interpolation as local separable convolution over input frames using pairs of 1D kernels.

在CVPR2017那篇文章中 作者使用 一个CNN网络来估计2D 的卷积核, estimate spatially-adaptive convolution kernels for each output pixel and convolve the kernels with the input frames to generate a new frame。这些卷积核同时考虑运动估计和 re-sampling。 对于 large motion,就需要 large kernels。 这样参数量和计算量都上升了。 例如对每个输出像素 CVPR2017 那篇文献输出 两个 41×41 kernels,对于一张 1080p 图像的合成, the output kernels alone will require 26 GB of memory 当我们采用了separable convolution, For a 1080p video frame, using separable kernels that approximate 41 × 41 ones only requires 1.27 GB

3 Video Frame Interpolation 对于视频插帧问题采用 adaptive convolution approach的话可以表示为如下公式:

K1、K2 是一对 2D convolution kernels,P 1 (x,y) and P 2 (x,y) are the patches centered at (x,y) in I1 and I2 To capture large motion, large-size kernels are required,文献【36】使用 used 41 × 41 kernels

it is difficult to estimate them at once for all the pixels of a high-resolution frame simultaneously, due to the large amount of parameters and the limited memory

Our method addresses this problem by estimating a pair of 1D kernels that approximate a 2D kernel our method reduces the number of kernel parameters from n*n to 2n for each kernel.

Loss function 这里我们考虑两类损失函数:第一类是 L1 per-pixel color difference,第二类 L_F loss functions that this work explores is perceptual loss, which has often been found effective in producing visually pleasing images

Visual comparison among frame interpolation methods

Evaluation on the Middlebury benchmark

With a Nvidia Titan X (Pascal), our system is able to interpolate a 1280 × 720 frame in 0.5 seconds as well as a 1920 × 1080 frame in 0.9 seconds. Training our network takes about 20 hours using four Nvidia Titan X (Pascal)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏梦里茶室

TensorFlow 深度学习笔记 Logistic Classification

Logistic Classification Github工程地址:https://github.com/ahangchen/GDLnotes 欢迎sta...

18410
来自专栏郭耀华‘s Blog

Batch Normalization&Dropout浅析

一. Batch Normalization 对于深度神经网络,训练起来有时很难拟合,可以使用更先进的优化算法,例如:SGD+momentum、RMSProp、...

2606
来自专栏机器学习、深度学习

人群分割--Fully Convolutional Neural Networks for Crowd Segmentation

Fully Convolutional Neural Networks for Crowd Segmentation https://arxiv.org/a...

1947
来自专栏机器学习算法全栈工程师

目标检测|YOLOv2原理与实现(附YOLOv3)

在前面的一篇文章中,我们详细介绍了YOLOv1的原理以及实现过程。这篇文章接着介绍YOLOv2的原理以及实现,YOLOv2的论文全名为YOLO9000: Bet...

2164
来自专栏企鹅号快讯

基于神经网络的实体识别和关系抽取联合学习

作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言...

5199
来自专栏机器学习算法全栈工程师

从0到1 实现YOLO v3 (Part one)

如果说非要提供一个方法快速掌握目标检测的深度学习算法的话,那就是自己从无到有的实现它,在这期间,可以对整个算法有更清晰的认识,此次系列文章旨在提供一个自己从无到...

2316
来自专栏有趣的Python

19- OpenCV+TensorFlow 入门人工智能图像处理-刷脸识别实现

1522
来自专栏机器学习、深度学习

遮挡人脸检测--Detecting Masked Faces in the Wild with LLE-CNNs

Detecting Masked Faces in the Wild with LLE-CNNs CVPR2017 本文针对遮挡人脸检测问题,首先建立了一个...

3729
来自专栏文武兼修ing——机器学习与IC设计

YOLOv2与YOLOv3学习笔记基本思路模型训练YOLOv3

1.1K5
来自专栏SnailTyan

YOLO论文翻译——中文版

You Only Look Once: Unified, Real-Time Object Detection 摘要 我们提出了YOLO,一种新的目标检测方法。...

2290

扫码关注云+社区