视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016

http://www.robots.ox.ac.uk/~vgg/software/two_stream_action/ https://github.com/feichtenhofer/twostreamfusion

对视频动作识别 采用 two steam CNN 分开处理 时空信息,这里我们主要探讨这怎么在 CNN中更好的融合时空信息。 我们的发现有以下三点: (i) that rather than fusing at the softmax layer, a spatial and temporal network can be fused at a convolution layer without loss of performance, but with a substantial saving in parameters; 在卷积层融合时空网络不会导致性能下降,但是可以减少网络参数

(ii) that it is better to fuse such networks spatially at the last convolutional layer than earlier, and that additionally fusing at the class prediction layer can boost accuracy; 在网络的后卷积层空间融合比浅层要好,在类别预测层融合会增加性能

(iii) that pooling of abstract convolutional features over spatiotemporal neighbourhoods further boosts performance. 在时空邻域加入池化可以增加性能

针对CNN网络为什么没有在 视频动作识别中取得很好的结果,我们认为的原因是:1)训练数据可能太少了,2)时间信息利用的不够 current ConvNet architectures are not able to take full advantage of temporal information and their performance is consequently often dominated by spatial (appearance) recognition

至少以前的 two-stream architecture 不能很好的解决下面的问题: 1)recognizing what is moving where, i.e. registering appearance recognition (spatial cue) with optical flow recognition (temporal cue) 时空信息的对应 2)how these cues evolve over time. 信息是如何变化

3 Approach 以前的 two-stream architecture 不能很好的融合时空信息,没有时空对应关系 3.1. Spatial fusion 空间融合 这里介绍了好几种融合:Sum fusion,Max fusion,Concatenation fusion,Conv fusion,Bilinear fusion

3.2. Where to fuse the networks 这里的选择也是比较多的

3.3. Temporal fusion

3.4. Proposed architecture

We fuse the two networks, at the last convolutional layer (after ReLU) into the spatial stream to convert it into a spatiotemporal stream by using 3D Conv fusion followed by 3D pooling (see Fig. 4, left). Moreover, we do not truncate the temporal stream and also perform 3D Pooling in the temporal network (see Fig. 4, right). The losses of both streams are used for training and during testing we average the predictions of the two streams

有没有感觉搞复杂了啊!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现对抗自编码器

即使是非计算机行业, 大家也知道很多有名的神经网络结构, 比如CNN在处理图像上非常厉害, RNN能够建模序列数据. 然而CNN, RNN之类的神经网络结构本身...

5145
来自专栏新智元

【Ian Goodfellow盛赞】一个GAN生成ImageNet全部1000类物体

【新智元导读】Ian Goodfellow刚刚在Twitter盛赞一篇论文,担心仅仅浏览摘要无法充分体会其突破。这篇正在ICLR-18双盲审核中的论文,提出了一...

37111
来自专栏CreateAMind

GAN应用情况调研

在此之前呢,先推荐大家去读一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。

1302
来自专栏机器学习算法与Python学习

资料 | 生成对抗网络(GAN)论文阅读路线图【打包下载】

为了帮助其他想要了解更多关于GAN技术的人,我想按照我阅读的顺序分享一些我读过的文章。在阅读这些论文之前,如果您不熟悉这些论文,我建议您学习一些深度学习的基础知...

1013
来自专栏Petrichor的专栏

论文阅读: ResNet

ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今:

1343
来自专栏新智元

【新手必备】GAN生成对抗网络论文阅读路线图(附论文下载链接)

作者:İdil Sülo, Middle East Technical University

593
来自专栏人工智能头条

写给大家看的机器学习书【Part3】直观易懂的感知机学习算法PLA

1875
来自专栏专知

GAN 生成对抗网络论文阅读路线图

【导读】如果你刚入门深度对抗网络,可能会遇到的第一个问题是“应该从哪篇论文开始读起呢?”

881
来自专栏CreateAMind

ICLR 2017 GAN 生成模型相关论文介绍

链接:https://www.zhihu.com/question/52311422/answer/130508707

692
来自专栏文武兼修ing——机器学习与IC设计

YOLO1学习笔记基本思路网络设计训练与预测

1274

扫码关注云+社区