视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016

http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/ https://github.com/feichtenhofer/twostreamfusion

对视频动作识别 采用 two steam CNN 分开处理 时空信息,这里我们主要探讨这怎么在 CNN中更好的融合时空信息。 我们的发现有以下三点: (i) that rather than fusing at the softmax layer, a spatial and temporal network can be fused at a convolution layer without loss of performance, but with a substantial saving in parameters; 在卷积层融合时空网络不会导致性能下降,但是可以减少网络参数

(ii) that it is better to fuse such networks spatially at the last convolutional layer than earlier, and that additionally fusing at the class prediction layer can boost accuracy; 在网络的后卷积层空间融合比浅层要好,在类别预测层融合会增加性能

(iii) that pooling of abstract convolutional features over spatiotemporal neighbourhoods further boosts performance. 在时空邻域加入池化可以增加性能

针对CNN网络为什么没有在 视频动作识别中取得很好的结果,我们认为的原因是:1)训练数据可能太少了,2)时间信息利用的不够 current ConvNet architectures are not able to take full advantage of temporal information and their performance is consequently often dominated by spatial (appearance) recognition

至少以前的 two-stream architecture 不能很好的解决下面的问题: 1)recognizing what is moving where, i.e. registering appearance recognition (spatial cue) with optical flow recognition (temporal cue) 时空信息的对应 2)how these cues evolve over time. 信息是如何变化

3 Approach 以前的 two-stream architecture 不能很好的融合时空信息,没有时空对应关系 3.1. Spatial fusion 空间融合 这里介绍了好几种融合:Sum fusion,Max fusion,Concatenation fusion,Conv fusion,Bilinear fusion

3.2. Where to fuse the networks 这里的选择也是比较多的

3.3. Temporal fusion

3.4. Proposed architecture

We fuse the two networks, at the last convolutional layer (after ReLU) into the spatial stream to convert it into a spatiotemporal stream by using 3D Conv fusion followed by 3D pooling (see Fig. 4, left). Moreover, we do not truncate the temporal stream and also perform 3D Pooling in the temporal network (see Fig. 4, right). The losses of both streams are used for training and during testing we average the predictions of the two streams

有没有感觉搞复杂了啊!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

CNN中的maxpool到底是什么原理?

首先细讲一下 Max pooling。 Max pooling 在卷积后还会有一个 pooling 的操作,尽管有其他的比如 average pooling...

2624
来自专栏杨熹的专栏

Instance Based Learning

Udacity Machine Learning Instance Based Learning ---- Supervised Learning 给你一...

2664
来自专栏机器之心

学界 | 优于VAE,为万能近似器高斯混合模型加入Wasserstein距离

使用生成式隐变量模型的无监督学习提供了一种强大且通用的方法来从大型无标签数据集中学习潜在的低维结构。通常训练该模型的两种最常见的技术是变分自编码器(VAE)[1...

752
来自专栏人工智能LeadAI

梯度下降法快速教程 | 第二章:冲量(momentum)的原理与Python实现

01 前言 梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。 其基本原理非常简单:沿着目标函数梯度下降...

3099
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

o(1)复杂度之双边滤波算法的原理、流程、实现及效果。

一、引言     双边滤波在图像处理领域中有着广泛的应用,比如去噪、去马赛克、光流估计等等,最近,比较流行的Non-Local算法也可以看成是双边滤波的一种...

2078
来自专栏语言、知识与人工智能

基于深度学习的FAQ问答系统

| 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于...

8.6K10
来自专栏YoungGy

局部放电的特征选择

局部放电是电力设备监测中的一种很重要的方法。本文将以局部放电为例,具体阐述feature selection。具体包括L1-regularization、seq...

2098
来自专栏懒人开发

(3.6)James Stewart Calculus 5th Edition:Implicit Differentiation

例如: x^2 + y^2 = 25 这个时候,我们知道 如果是函数, 用竖线检测, 需要把图像拆分

764
来自专栏AI科技评论

干货 | 攻击AI模型之DeepFool算法

AI 科技评论按:本文为“兜哥带你学安全”系列之三,首发于AI科技评论,未经许可不得转载。

1093
来自专栏ATYUN订阅号

使用TensorFlow和DLTK进行生物医学图像分析的介绍

DLTK是用于医学图像的深度学习工具包,它扩展了TensorFlow, 以实现生物医学图像的深度学习。它为经典的应用程序提供特殊的操作和功能、模型的实现、教程(...

1234

扫码关注云+社区