前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2014-NIPS-Two-Stream Convolutional Networks for Action Recognition in Videos

2014-NIPS-Two-Stream Convolutional Networks for Action Recognition in Videos

作者头像
hotarugali
发布2022-05-27 16:16:56
4860
发布2022-05-27 16:16:56
举报

1. 摘要

这篇文章[1]主要研究了如何有效地将深度学习用在动作识别领域。作者提出,这个任务的主要挑战在于如何让神经网络同时捕获到两种信息:一种是 appearance 信息(比如物体的大小、形状等静态信息),另一种是 motion 信息(即物体的运动信息)。这篇文章的主要贡献有三点,第一是提出了一个基于 CNN 的双流网络,它同时结合了时空间信息;第二,作者展示了即使只有少量训练数据,基于 CNN 的神经网络在视频帧的光流信息上进行训练能取得很好的性能;最后,作者展示了双流网络在多任务学习上的潜力,作者在两个数据集上同时训练一个双流骨干网络,相比于使用单一数据集,训练后的网络在两个数据集上都有性能提升。作者在 UCF-101 和 HMDB-51 数据集上进行了实验,效果能和当时的 SOTA 方法(当时还是非深度的方法)性能相当,比之前使用神经网络的方法要好很多。

2. 引言

相比于单张的静态图片,视频数据提供了一种很好的数据增强,因为视频数据天生就包含了物体形变等各种信息。在这篇文章之前也有一篇基于神经网络做视频理解的网络,但其简单粗暴,直接抽取一些关键帧输入到 CNN 网络中,自然效果也不好,甚至比不上手工设计的特征。于是作者借鉴了传统的基于手工设计的特征方法,将光流信息也引入到神经网络中进行学习,最后取得了很好的效果。

作者在引言中还回顾了一下一些优秀的基于手工设计的特征,包括 SIFT(scale-invariant feature transform)、STIP(spatio-temporal interest points)、optical flow、IDT(improved dence trajectory)等。

3. 模型

作者提到,视频可以很自然地拆分成空间信息和时间信息。空间信息就是指单帧图片中物体的 apperance 信息,而时间信息则是指帧与帧之间的 motion 信息。整个双流网络的架构如下:

  • Spatial stream ConvNet(空间流网络):类似于 AlexNet,和传统的 CNN 一样,以一系列的视频帧为输入,主要学习 apperance 信息;
  • Temporal stream ConvNet(时间流网络):以一系列视频帧的光流特征作为输入,主要学习 motion 信息;
  • class score fusion:加权平均,最后再过一个 Softmax,得到最终的类别预测输出。

4. 方法

4.1 空间流网络

作者先在 ImageNet 上对空间流网张进行预训练,再在 UCF-101 或 HMDB-51 上进行微调得到最终的空间流网络。

4.2 时间流网络

4.2.1 光流

4.2.2 光流叠加

不过尬尴的是,作者在实验中发现第一种简单的叠加效果反而更好。但这并不能完全说明第二种方式就没用,因为后续有工作就是使用了第二种方式,将分数刷到了很高。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 摘要
  • 2. 引言
  • 3. 模型
  • 4. 方法
    • 4.1 空间流网络
      • 4.2 时间流网络
        • 4.2.1 光流
        • 4.2.2 光流叠加
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档