时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.edu/c3d/ https://github.com/facebook/C3D

本文使用 3D CNN 来分析视频序列,学习到的时空特征称之为 C3D,主要寻找3D CNN 中的最优3D滤波器结构

视频数据的分析是一个很重要的工作,但是也是一个难题。 一个有效的 video descriptor,我们认为需要满足一下四点:1) generic, 2)compact, 3)simple, 4)efficient。

我们的 C3D是多才多艺的:

3 Learning Features with 3D ConvNets 3.1. 3D convolution and pooling 我们相信 3D CNN 网络适合于时空特征的学习,和 2D CNN 网络相比,3D ConvNet 通过3D 卷积和 3D 池化 可以对时间信息进行建模。

我们的思路是先在一个小的数据库上寻找一个最优的 3D ConvNet 网络结构,然后再在一个大的数据库上进行验证。

Because training deep net-works on large-scale video datasets is very time-consuming, we first experiment with UCF101, a medium-scale dataset, to search for the best architecture.

Common network settings: 我们的网络输入是一个小段视频,输出是 101 different actions 网络结构的一些设定, 将 UCF101 图像的尺寸归一化到 128 × 171,Videos are split into non-overlapped 16-frame clips which are then used as input to the networks. 输入尺寸是 3 × 16 × 128 × 171,我们也会裁剪一些作为输入, 尺寸为3 × 16 × 112 × 112,网络有5个卷积和 5个池化, 2 fully-connected layers and a softmax loss layer to predict action labels。 卷积层中的滤波器个数分别为 64, 128, 256, 256, 256,所有卷积滤波器的 kernal 是 3 × 3 × d, 这个d is the kernel temporal depth

According to the findings in 2D ConvNet [37], small receptive fields of 3 × 3 convolution kernels with deeper architectures yield best results. Hence, for our architecture search study we fix the spatial receptive field to 3 × 3 and vary only the temporal depth of the 3D convolution kernels.

Varying network architectures:

实验结果发现 d=3 是最优的

3.3. Spatiotemporal feature learning 有了最优的 卷积核,下面我们设计一个好点的网络,这个受硬件性能的制约

我们用这个网络提到的特征称之为 C3D

DeepVideo and C3D use short clips while Convolution pooling [29] uses much longer clips.

Scene recognition accuracy

C3D is much faster than real-time, processing at 313 fps

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SnailTyan

Inception-V3论文翻译——中文版

Rethinking the Inception Architecture for Computer Vision 摘要 对许多任务而言,卷积网络是目前最新的计...

2901
来自专栏SnailTyan

Going Deeper with Convolutions——GoogLeNet论文翻译——中英文对照

声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! Going Deeper with Convolutions Abstract We propo...

1890
来自专栏机器之心

用AI让静图变动图:CVPR热文提出动态纹理合成新方法

选自arXiv 作者:Matthew Tesfaldet等 机器之心编译 参与:路、李泽南 图画总是只能表现事物瞬间的形象,而动画则需要逐帧手绘,费时费力,人工...

3116
来自专栏AI研习社

阿里巴巴 Poster 论文:处理多种退化类型的卷积超分辨率

从学术开发和企业活动上看,阿里巴巴达摩院机器智能技术实验室在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有不错的表现。实验室分别在 SQuA...

933
来自专栏新智元

【干货】计算机视觉视频理解领域的经典方法和最新成果

6372
来自专栏Deep learning进阶路

深度学习论文随记(三)GoogLeNet-2014年

深度学习论文随记(三)GoogLeNet Going Deeper with Convolutions Author: Christian Szegedy, ...

1990
来自专栏tkokof 的技术,小趣及杂念

数学笔记(二)之平面表示

  假设我们知道垂直于平面的法向量n,以及平面上的一点p0,如何使用这两个元素来表示该平面呢?

652
来自专栏数值分析与有限元编程

共旋坐标法( 二 )

以平面杆单元为例,共旋坐标法的基本思想可由图1来描述。其中有两个坐标系和三个构型。共旋坐标法分别是整体坐标系Xg-Yg和局部坐标系xe-ye,整...

842
来自专栏计算机视觉战队

有效遮挡检测的鲁棒人脸识别

这次主要分享一个比较热门的话,但是使用的传统方法的人脸检测,并且是在遮挡情况下的人脸检测,希望可以给大家带来一些帮助,谢谢! 文章参考:Efficient De...

4356
来自专栏CreateAMind

深度强化学习调研概览及最新论文成果(一)RL base & DQN-DDPG-A3C introduction

来源:https://zhuanlan.zhihu.com/p/25239682

1604

扫码关注云+社区