这篇文章[1]主要研究了如何有效地将深度学习用在动作识别领域。作者提出,这个任务的主要挑战在于如何让神经网络同时捕获到两种信息:一种是 appearance 信息(比如物体的大小、形状等静态信息),另一种是 motion 信息(即物体的运动信息)。这篇文章的主要贡献有三点,第一是提出了一个基于 CNN 的双流网络,它同时结合了时空间信息;第二,作者展示了即使只有少量训练数据,基于 CNN 的神经网络在视频帧的光流信息上进行训练能取得很好的性能;最后,作者展示了双流网络在多任务学习上的潜力,作者在两个数据集上同时训练一个双流骨干网络,相比于使用单一数据集,训练后的网络在两个数据集上都有性能提升。作者在 UCF-101 和 HMDB-51 数据集上进行了实验,效果能和当时的 SOTA 方法(当时还是非深度的方法)性能相当,比之前使用神经网络的方法要好很多。
相比于单张的静态图片,视频数据提供了一种很好的数据增强,因为视频数据天生就包含了物体形变等各种信息。在这篇文章之前也有一篇基于神经网络做视频理解的网络,但其简单粗暴,直接抽取一些关键帧输入到 CNN 网络中,自然效果也不好,甚至比不上手工设计的特征。于是作者借鉴了传统的基于手工设计的特征方法,将光流信息也引入到神经网络中进行学习,最后取得了很好的效果。
作者在引言中还回顾了一下一些优秀的基于手工设计的特征,包括 SIFT(scale-invariant feature transform)、STIP(spatio-temporal interest points)、optical flow、IDT(improved dence trajectory)等。
作者提到,视频可以很自然地拆分成空间信息和时间信息。空间信息就是指单帧图片中物体的 apperance 信息,而时间信息则是指帧与帧之间的 motion 信息。整个双流网络的架构如下:
作者先在 ImageNet 上对空间流网张进行预训练,再在 UCF-101 或 HMDB-51 上进行微调得到最终的空间流网络。
不过尬尴的是,作者在实验中发现第一种简单的叠加效果反而更好。但这并不能完全说明第二种方式就没用,因为后续有工作就是使用了第二种方式,将分数刷到了很高。