时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.edu/c3d/ https://github.com/facebook/C3D

本文使用 3D CNN 来分析视频序列,学习到的时空特征称之为 C3D,主要寻找3D CNN 中的最优3D滤波器结构

视频数据的分析是一个很重要的工作,但是也是一个难题。 一个有效的 video descriptor,我们认为需要满足一下四点:1) generic, 2)compact, 3)simple, 4)efficient。

我们的 C3D是多才多艺的:

3 Learning Features with 3D ConvNets 3.1. 3D convolution and pooling 我们相信 3D CNN 网络适合于时空特征的学习,和 2D CNN 网络相比,3D ConvNet 通过3D 卷积和 3D 池化 可以对时间信息进行建模。

我们的思路是先在一个小的数据库上寻找一个最优的 3D ConvNet 网络结构,然后再在一个大的数据库上进行验证。

Because training deep net-works on large-scale video datasets is very time-consuming, we first experiment with UCF101, a medium-scale dataset, to search for the best architecture.

Common network settings: 我们的网络输入是一个小段视频,输出是 101 different actions 网络结构的一些设定, 将 UCF101 图像的尺寸归一化到 128 × 171,Videos are split into non-overlapped 16-frame clips which are then used as input to the networks. 输入尺寸是 3 × 16 × 128 × 171,我们也会裁剪一些作为输入, 尺寸为3 × 16 × 112 × 112,网络有5个卷积和 5个池化, 2 fully-connected layers and a softmax loss layer to predict action labels。 卷积层中的滤波器个数分别为 64, 128, 256, 256, 256,所有卷积滤波器的 kernal 是 3 × 3 × d, 这个d is the kernel temporal depth

According to the findings in 2D ConvNet [37], small receptive fields of 3 × 3 convolution kernels with deeper architectures yield best results. Hence, for our architecture search study we fix the spatial receptive field to 3 × 3 and vary only the temporal depth of the 3D convolution kernels.

Varying network architectures:

实验结果发现 d=3 是最优的

3.3. Spatiotemporal feature learning 有了最优的 卷积核,下面我们设计一个好点的网络,这个受硬件性能的制约

我们用这个网络提到的特征称之为 C3D

DeepVideo and C3D use short clips while Convolution pooling [29] uses much longer clips.

Scene recognition accuracy

C3D is much faster than real-time, processing at 313 fps

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

K近邻算法

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

911
来自专栏CVer

[计算机论文速递] 2018-04-11

PS:Amusi前几天在忙其它事,论文速递耽搁了近一个星期,还请大家见谅。因为时间因素,和往常一样,每篇paper不附带相应的图示。如果本文中出现明显重大的翻译...

3656
来自专栏ATYUN订阅号

DeepSense:用于时间序列移动传感数据处理的深度学习框架

DeepSense是在移动设备上运行的深度学习框架,它可以完成移动传感器(如运动传感器)数据集上的回归和分类任务。分类任务的第一个例子是异构人类活动识别(HHA...

3345
来自专栏Gaussic

Machine Learning笔记(一) 监督学习、非监督学习

对于要买房子的人,充分的市场调研可以充分的了解市场行情。假设你想买一栋 750 feet2 的房子,而在其他方面没有太大的要求,现已收集了许多房屋的尺寸极其对应...

321
来自专栏AI研习社

博客 | 当 AI 开始学习艺术创作,我们应该觉得担心吗?

随着深度学习爆发式的成功,算法渐渐的被引入了一个人类认为相对安全的领域 —— 创造引人注目的艺术。

681
来自专栏Tencentcloud

几何与学习的交汇点

通常来说,只给出一个2D图像,人类就能够毫不费力地推断出底层场景的丰富3D结构。由于从2D推断3D本身是一个模糊的任务。

1.1K13
来自专栏语言、知识与人工智能

当深度学习遇见自动文本摘要

| 导语 随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一...

5429
来自专栏技术随笔

[译] 用于语义分割的全卷积网络FCN(UC Berkeley)题目:用于语义分割的全卷积网络摘要1. 引言2. 相关工作3. 全卷积网络4 分割架构5 结果6 结论附录A IU上界附录B 更多的结果

3707
来自专栏目标检测和深度学习

目标检测入门(二):模型的评测与训练技巧

文章结构 ? 检测模型的评测指标 目标检测模型本源上可以用统计推断的框架描述,我们关注其犯第一类错误和第二类错误的概率,通常用准确率和召回率来描述。准确率描述了...

3556
来自专栏云加新鲜事儿

当深度学习遇见自动文本摘要

随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,从大量文本信息中提取重要的内容,已成为我们的一个迫切需求。

5.6K4

扫码关注云+社区