视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016

http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/ https://github.com/feichtenhofer/twostreamfusion

对视频动作识别 采用 two steam CNN 分开处理 时空信息,这里我们主要探讨这怎么在 CNN中更好的融合时空信息。 我们的发现有以下三点: (i) that rather than fusing at the softmax layer, a spatial and temporal network can be fused at a convolution layer without loss of performance, but with a substantial saving in parameters; 在卷积层融合时空网络不会导致性能下降,但是可以减少网络参数

(ii) that it is better to fuse such networks spatially at the last convolutional layer than earlier, and that additionally fusing at the class prediction layer can boost accuracy; 在网络的后卷积层空间融合比浅层要好,在类别预测层融合会增加性能

(iii) that pooling of abstract convolutional features over spatiotemporal neighbourhoods further boosts performance. 在时空邻域加入池化可以增加性能

针对CNN网络为什么没有在 视频动作识别中取得很好的结果,我们认为的原因是:1)训练数据可能太少了,2)时间信息利用的不够 current ConvNet architectures are not able to take full advantage of temporal information and their performance is consequently often dominated by spatial (appearance) recognition

至少以前的 two-stream architecture 不能很好的解决下面的问题: 1)recognizing what is moving where, i.e. registering appearance recognition (spatial cue) with optical flow recognition (temporal cue) 时空信息的对应 2)how these cues evolve over time. 信息是如何变化

3 Approach 以前的 two-stream architecture 不能很好的融合时空信息,没有时空对应关系 3.1. Spatial fusion 空间融合 这里介绍了好几种融合:Sum fusion,Max fusion,Concatenation fusion,Conv fusion,Bilinear fusion

3.2. Where to fuse the networks 这里的选择也是比较多的

3.3. Temporal fusion

3.4. Proposed architecture

We fuse the two networks, at the last convolutional layer (after ReLU) into the spatial stream to convert it into a spatiotemporal stream by using 3D Conv fusion followed by 3D pooling (see Fig. 4, left). Moreover, we do not truncate the temporal stream and also perform 3D Pooling in the temporal network (see Fig. 4, right). The losses of both streams are used for training and during testing we average the predictions of the two streams

有没有感觉搞复杂了啊!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 除了自然语言处理,你还可以用Word2Vec做什么?

3566
来自专栏机器之心

学界 | 473个模型试验告诉你文本分类中的最好编码方式

3045
来自专栏机器之心

学界 | CMU论文:神经机器翻译和Seq2seq模型导论

选自arXiv 作者:Graham Neubig 机器之心编译 参与:李泽南、蒋思源 本文是一篇有关机器翻译的详细教程,适用于计算机科学本科背景的读者。据 Pa...

37017
来自专栏机器之心

视频 | NIPS 2017线上分享第二期:利用价值网络改进神经机器翻译

在 NIPS 2017 大会正式开始前,机器之心将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论、技术和研究方法。上周,我们进行了线上分享的第二期,邀请到...

3459
来自专栏Vamei实验室

概率论09 期望

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

862
来自专栏专知

【前沿】隐式自编码器(Implicit Autoencoders),自编码器新方法

【导读】本期我们将为大家介绍来自多伦多大学Alireza Makhzani博士在Google Brain的最新演讲,隐式自编码器(IAE,Implicit Au...

872
来自专栏技术沉淀

NumPy 实现梯形法积分

802
来自专栏人工智能

浅谈神经机器翻译

发明计算机的最早目标之一就是自动将文本从一种语言翻译成另一种语言。

2408
来自专栏深度学习自然语言处理

pyTorch基础入门练习

import导入 import torch#基本的torch函数 import torch.autograd as autograd#自动求导 import t...

37310
来自专栏机器之心

教程 | 如何为神经机器翻译配置编码器-解码器模型?

2095

扫码关注云+社区