时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.edu/c3d/ https://github.com/facebook/C3D

本文使用 3D CNN 来分析视频序列,学习到的时空特征称之为 C3D,主要寻找3D CNN 中的最优3D滤波器结构

视频数据的分析是一个很重要的工作,但是也是一个难题。 一个有效的 video descriptor,我们认为需要满足一下四点:1) generic, 2)compact, 3)simple, 4)efficient。

我们的 C3D是多才多艺的:

3 Learning Features with 3D ConvNets 3.1. 3D convolution and pooling 我们相信 3D CNN 网络适合于时空特征的学习,和 2D CNN 网络相比,3D ConvNet 通过3D 卷积和 3D 池化 可以对时间信息进行建模。

我们的思路是先在一个小的数据库上寻找一个最优的 3D ConvNet 网络结构,然后再在一个大的数据库上进行验证。

Because training deep net-works on large-scale video datasets is very time-consuming, we first experiment with UCF101, a medium-scale dataset, to search for the best architecture.

Common network settings: 我们的网络输入是一个小段视频,输出是 101 different actions 网络结构的一些设定, 将 UCF101 图像的尺寸归一化到 128 × 171,Videos are split into non-overlapped 16-frame clips which are then used as input to the networks. 输入尺寸是 3 × 16 × 128 × 171,我们也会裁剪一些作为输入, 尺寸为3 × 16 × 112 × 112,网络有5个卷积和 5个池化, 2 fully-connected layers and a softmax loss layer to predict action labels。 卷积层中的滤波器个数分别为 64, 128, 256, 256, 256,所有卷积滤波器的 kernal 是 3 × 3 × d, 这个d is the kernel temporal depth

According to the findings in 2D ConvNet [37], small receptive fields of 3 × 3 convolution kernels with deeper architectures yield best results. Hence, for our architecture search study we fix the spatial receptive field to 3 × 3 and vary only the temporal depth of the 3D convolution kernels.

Varying network architectures:

实验结果发现 d=3 是最优的

3.3. Spatiotemporal feature learning 有了最优的 卷积核,下面我们设计一个好点的网络,这个受硬件性能的制约

我们用这个网络提到的特征称之为 C3D

DeepVideo and C3D use short clips while Convolution pooling [29] uses much longer clips.

Scene recognition accuracy

C3D is much faster than real-time, processing at 313 fps

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

干货 | YJango的 卷积神经网络介绍

AI科技评论按:本文来源 知乎,作者:YJango,AI科技评论授权转载。 PS:YJango是我的网名,意思是我写的教程,并不是一种网络结构。。 关于卷积神经...

3457
来自专栏重庆的技术分享区

2吴恩达Meachine-Learing之单变量线性回归(Linear-Regression-with-One-Variable

1384
来自专栏人工智能

通过5个简单序列预测实例学习LSTM递归神经网络

它要求你考虑观测的顺序,并且使用像长短期记忆(LSTM)递归神经网络这样有记忆性的,并且可以学习观测之间时间依赖性的模型。

7138
来自专栏大数据文摘

卷积?神经?网络?教你从读懂词语开始了解计算机视觉识别最火模型 | CNN入门手册(上)

1443
来自专栏小小挖掘机

数据城堡参赛代码实战篇(五)---使用sklearn解决分类问题

小编们最近参加了数据城堡举办的“大学生助学金精准资助预测”比赛,以分组第19名的成绩进入了复赛,很激动有木有!在上一篇文章中,小编带你使用pandas中merg...

3084
来自专栏数据科学学习手札

(数据科学学习手札39)RNN与LSTM基础内容详解

  循环神经网络(recurrent neural network,RNN),是一类专门用于处理序列数据(时间序列、文本语句、语音等)的神经网络,尤其是可以处理...

2614
来自专栏机器学习之旅

理论:随机森林-枝剪问题

剪枝的意义是:防止决策树生成过于庞大的子叶,避免实验预测结果过拟合,在实际生产中效果很差

852
来自专栏人工智能

机器学习的第一步:先学会这6种常用算法

【IT168 资讯】机器学习领域不乏算法,但众多的算法中什么是最重要的?哪种是最适合您使用的?哪些又是互补的?使用选定资源的最佳顺序是什么?今天笔者就带大家一起...

18910
来自专栏新智元

【官方中文版】谷歌发布机器学习术语表(完整版)

【新智元导读】Google 工程教育团队已经发布了多语种的 Google 机器学习术语表,该术语表中列出了一般的Machine Learning术语和 Tens...

3455
来自专栏CVer

机器学习术语表

机器学习术语表:https://developers.google.com/machine-learning/glossary/ 机器学习术语表,即机器学习专业...

3299

扫码关注云+社区