视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/

本文针对视频中的动作分类问题,这里使用 两个独立的CNN来分开处理 视频中的空间信息和时间信息 spatial 和 tempal,然后我们再后融合 late fusion。 spatial stream 从视频中的每一帧图像做动作识别,tempal stream 通过输入稠密光流的运动信息来识别动作。两个 stream 都通过 CNN网络来完成。将时间和空间信息分开来处理,就可以利用现成的数据库来训练这两个网络。

2 Two-stream architecture for video recognition 视频可以很自然的被分为 空间部分和时间部分,空间部分主要对应单张图像中的 appearance,传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动,包含物体和观察者(相机)的运动信息。

Each stream is implemented using a deep ConvNet, softmax scores of which are combined by late fusion. We consider two fusion methods: averaging and training a multi-class linear SVM [6] on stacked L 2 -normalised softmax scores as features.

Spatial stream ConvNet: 这就是对单张图像进行分类,我们可以使用最新的网络结构,在图像分类数据库上预训练

3 Optical flow ConvNets the input to our model is formed by stacking optical flow displacement fields between several consecutive frames. Such input explicitly describes the motion between video frames, which makes the recognition easier 对于 Optical flow ConvNets 我们将若干连续帧图像对应的光流场输入到 CNN中,这种显示的运动信息可以帮助动作分类。

这里我们考虑基于光流输入的变体: 3.1 ConvNet input configurations Optical flow stacking. 这里我们将光流的水平分量和垂直分量 分别打包当做特征图输入 CNN, The horizontal and vertical components of the vector field can be seen as image channels

Trajectory stacking,作为另一种运动表达方式,我们可以将运动轨迹信息输入 CNN

Bi-directional optical flow 双向光流的计算

Mean flow subtraction: 这算是一种输入的归一化了,将均值归一化到 0 It is generally beneficial to perform zero-centering of the network input, as it allows the model to better exploit the rectification non-linearities In our case, we consider a simpler approach: from each displacement field d we subtract its mean vector.

Individual ConvNets accuracy on UCF-101

Temporal ConvNet accuracy on HMDB-51

Two-stream ConvNet accuracy on UCF-101

Mean accuracy (over three splits) on UCF-101 and HMDB-51

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

前端设计图转代码,西安交大表示复杂界面也能一步步搞定

使用机器学习技术自动生成图形用户界面(GUI)代码是一个相对较新的研究领域。通常,按照设计编写 GUI 对前端开发者来说是一项耗时又繁琐的工作,因为这使得他们无...

832
来自专栏ATYUN订阅号

伯克利人工智能研究项目:为图像自动添加准确的说明

人类可以很容易地推断出给定图像中最突出的物体,并能描述出场景内容,如物体所处于的环境或是物体特征。而且,重要的是,物体与物体之间如何在同一个场景中互动。视觉描述...

3425
来自专栏机器之心

教程 | 初学者入门:如何用Python和SciKit Learn 0.18实现神经网络?

选自Springboard 作者:Jose Portilla 机器之心编译 参与:Jane W、吴攀 本教程的代码和数据来自于 Springboard 的博客...

32011
来自专栏数据派THU

自创数据集,用TensorFlow预测股票教程 !(附代码)

来源:机器之心 本文长度为4498字,建议阅读8分钟 本文非常适合初学者了解如何使用TensorFlow构建基本的神经网络。 STATWORX 团队近日从 Go...

4647
来自专栏有趣的Python

2- 深度学习之神经网络核心原理与算法-提高神经网络学习效率

上一章我们介绍了基本的前馈神经网络的实现。 本节我们来介绍一些可以提高神经网络学习效率的方法。 并行计算 加快神经网络训练最直接的方式。我们需要得到的是一个网络...

56813
来自专栏老秦求学

[Deep-Learning-with-Python] Keras高级概念

目前为止,介绍的神经网络模型都是通过Sequential模型来实现的。Sequential模型假设神经网络模型只有一个输入一个输出,而且模型的网络层是线性堆叠在...

1111
来自专栏H2Cloud

隐马尔科夫-维特比算法

概念介绍:   继上篇贝叶斯(https://cloud.tencent.com/developer/article/1056640)后,一直想完成隐马尔科夫这...

3376
来自专栏数据结构与算法

P1038 神经网络

题目背景 人工神经网络(Artificial Neural Network)是一种新兴的具有自我学习能力的计算系统,在模式识别、函数逼近及贷款风险评估等诸多领域...

3318
来自专栏机器之心

自创数据集,使用TensorFlow预测股票入门

3637
来自专栏AI研习社

CS231n 课后作业第二讲 : Assignment 2(含代码实现)| 分享总结

CS231n 是斯坦福大学开设的计算机视觉与深度学习的入门课程,授课内容在国内外颇受好评。其配套的课后作业质量也颇高,因此雷锋网 AI 研习社在近期的线上公开...

44010

扫码关注云+社区