视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/

本文针对视频中的动作分类问题,这里使用 两个独立的CNN来分开处理 视频中的空间信息和时间信息 spatial 和 tempal,然后我们再后融合 late fusion。 spatial stream 从视频中的每一帧图像做动作识别,tempal stream 通过输入稠密光流的运动信息来识别动作。两个 stream 都通过 CNN网络来完成。将时间和空间信息分开来处理,就可以利用现成的数据库来训练这两个网络。

2 Two-stream architecture for video recognition 视频可以很自然的被分为 空间部分和时间部分,空间部分主要对应单张图像中的 appearance,传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动,包含物体和观察者(相机)的运动信息。

Each stream is implemented using a deep ConvNet, softmax scores of which are combined by late fusion. We consider two fusion methods: averaging and training a multi-class linear SVM [6] on stacked L 2 -normalised softmax scores as features.

Spatial stream ConvNet: 这就是对单张图像进行分类,我们可以使用最新的网络结构,在图像分类数据库上预训练

3 Optical flow ConvNets the input to our model is formed by stacking optical flow displacement fields between several consecutive frames. Such input explicitly describes the motion between video frames, which makes the recognition easier 对于 Optical flow ConvNets 我们将若干连续帧图像对应的光流场输入到 CNN中,这种显示的运动信息可以帮助动作分类。

这里我们考虑基于光流输入的变体: 3.1 ConvNet input configurations Optical flow stacking. 这里我们将光流的水平分量和垂直分量 分别打包当做特征图输入 CNN, The horizontal and vertical components of the vector field can be seen as image channels

Trajectory stacking,作为另一种运动表达方式,我们可以将运动轨迹信息输入 CNN

Bi-directional optical flow 双向光流的计算

Mean flow subtraction: 这算是一种输入的归一化了,将均值归一化到 0 It is generally beneficial to perform zero-centering of the network input, as it allows the model to better exploit the rectification non-linearities In our case, we consider a simpler approach: from each displacement field d we subtract its mean vector.

Individual ConvNets accuracy on UCF-101

Temporal ConvNet accuracy on HMDB-51

Two-stream ConvNet accuracy on UCF-101

Mean accuracy (over three splits) on UCF-101 and HMDB-51

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏yl 成长笔记

多维空间下求平面交线的通用方法

差乘  crossProduct:a.crossProcut(b) = a*b*sin<a, b>

1084
来自专栏王小雷

基于Python3 神经网络的实现

基于Python3 神经网络的实现(下载源码) 本次学习是Denny Britz(作者)的Python2神经网络项目修改为基于Python3实现的神经网络(本篇...

22310
来自专栏图形学与OpenGL

《计算机图形学基础(OpenGL版)》勘误表

T2=[cos600∘sin600∘0−sin600∘cos600∘0001]=[−1/2−3/203/2−1/20001]T_2= \left[ \begin...

914
来自专栏本立2道生

滤波器——BoxBlur均值滤波及其快速实现

在数字图像处理的语境里,图像一般是二维或三维的矩阵,卷积核(kernel)和滤波器(filter)通常指代同一事物,即对图像进行卷积或相关操作时使用的小矩阵,尺...

711
来自专栏智能算法

纹理图像分析的基本方法简述

纹理是物体表面固有的一种特性,所以图像中的区域常体现出纹理性质。纹理可以认为是灰度(颜色)在空间以一定的形式变化而产生的团(模式)。纹理与尺度有密切的关系,一般...

36915
来自专栏AI研习社

在 TensorFlow 里构建神经网络来可视化高维数据

在诸如自然语言处理、推荐系统构建等深度学习研究的许多方面,词汇嵌入和高维数据无处不在。谷歌最近开源了 embedding project 项目,此项目是一个交...

903
来自专栏数据科学与人工智能

机器学习是什么

机器学习是什么?众说纷纭,各抒己见。 ? 让我们看一些机器学习是什么?的经典见解。 见解一:Arthur Samuel 先生定义机器学习 “the field ...

3287
来自专栏每日一篇技术文章

OpengL ES _ 入门_03

好,记住这个过程,任务一就完成了。接下来的任务就是对每个步骤详细理解,加深记忆!!

672
来自专栏人工智能LeadAI

keras学习笔记-黑白照片自动着色的神经网络-Alpha版

如今,上色都是人手工用Photoshop做的,一张图片要花好几个月才能完成,需要进行大量调查研究,光是其中的一张脸就需要多达20层图层。但是,基于深度神经网络的...

5215
来自专栏机器学习、深度学习

快速去阴影--Fast Shadow Detection from a Single Image Using a Patched Convolutional Neural Network

Fast Shadow Detection from a Single Image Using a Patched Convolutional Neural N...

2099

扫码关注云+社区