2014-NIPS-Two-Stream Convolutional Networks for Action Recognition in Videos

hotarugali

发布于 2022-05-27 16:16:56

4890

发布于 2022-05-27 16:16:56

1. 摘要

这篇文章[1]主要研究了如何有效地将深度学习用在动作识别领域。作者提出，这个任务的主要挑战在于如何让神经网络同时捕获到两种信息：一种是 appearance 信息（比如物体的大小、形状等静态信息），另一种是 motion 信息（即物体的运动信息）。这篇文章的主要贡献有三点，第一是提出了一个基于 CNN 的双流网络，它同时结合了时空间信息；第二，作者展示了即使只有少量训练数据，基于 CNN 的神经网络在视频帧的光流信息上进行训练能取得很好的性能；最后，作者展示了双流网络在多任务学习上的潜力，作者在两个数据集上同时训练一个双流骨干网络，相比于使用单一数据集，训练后的网络在两个数据集上都有性能提升。作者在 UCF-101 和 HMDB-51 数据集上进行了实验，效果能和当时的 SOTA 方法（当时还是非深度的方法）性能相当，比之前使用神经网络的方法要好很多。

2. 引言

相比于单张的静态图片，视频数据提供了一种很好的数据增强，因为视频数据天生就包含了物体形变等各种信息。在这篇文章之前也有一篇基于神经网络做视频理解的网络，但其简单粗暴，直接抽取一些关键帧输入到 CNN 网络中，自然效果也不好，甚至比不上手工设计的特征。于是作者借鉴了传统的基于手工设计的特征方法，将光流信息也引入到神经网络中进行学习，最后取得了很好的效果。

作者在引言中还回顾了一下一些优秀的基于手工设计的特征，包括 SIFT（scale-invariant feature transform）、STIP（spatio-temporal interest points）、optical flow、IDT（improved dence trajectory）等。

3. 模型

作者提到，视频可以很自然地拆分成空间信息和时间信息。空间信息就是指单帧图片中物体的 apperance 信息，而时间信息则是指帧与帧之间的 motion 信息。整个双流网络的架构如下：

Spatial stream ConvNet（空间流网络）：类似于 AlexNet，和传统的 CNN 一样，以一系列的视频帧为输入，主要学习 apperance 信息；
Temporal stream ConvNet（时间流网络）：以一系列视频帧的光流特征作为输入，主要学习 motion 信息；
class score fusion：加权平均，最后再过一个 Softmax，得到最终的类别预测输出。