本文建议阅读时间 10 min
本文转载自 我爱计算机视觉,作者CV 君
禁止二次转载!
今天跟大家介绍一篇YOLO风格浓郁的论文,来自慕尼黑工业大学的学者受人类视觉的启发,提出一种快速实时的视频动作定位方法 You Only Watch Once(YOWO),达到了目前最好的效果,而且代码将开源。
下面为作者信息:
视频动作定位是在视频中定位出正在执行动作的主体并识别出动作的问题。
请看下面这幅动图:
很显然该问题包括:在多帧中定位主体和动作分类。
在对关键帧(当前帧)进行动作分类时,很显然要考虑之前的数据。
作者提出的算法正是在这一观察下,结合 3D-CNN 提取时空信息和 2D CNN 提取位置信息再特征融合,并参考 YOLO 检测方法提出来的。
不同于以往类似 Faster R-CNN两阶段方法,先生成大量 proposals,再进行分类和位置提精,YOWO 在一个网络中实现了时空信息的提取和融合,易于训练,精度高,而且速度也很快。
算法架构
下图为YOWO从数据输入到输出的整个过程:
使用 3D CNN对视频片段提取时空信息,使用 2D CNN 对关键帧提取空间信息,对得到的两部分特征进行注意力机制和通道融合(CFAM)的特征聚合,后面的过程与 YOLO 一样,卷积后进行分类和包围框回归。
作者提出的 CFAM 特征聚合方法:
开始处,红色和深蓝色代表前一阶段的两个分枝的特征拼合在一起。
实验结果
作者在 UCF101-24 和 J-HMDB-21 数据集上进行了实验,验证了算法各部分的有效性,并在与 state-of-the-art 算法的比较上,取得明显的精度改进。
上图展示了在两种度量标准下,作者提出的算法各部分都取得了精度增益。
在两个数据集上与 SOTA 算法的结果比较:
在 Frame-mAP 的度量标准下,YOWO达到了更高的精度,分别比之前的最好结果提高了 3.3 和 12.2 个百分点。
与其他算法相比,速度更是一大亮点:
在 Titan xp GPU上,YOWO 可达到 62 fps!
以下是作者给出的一些结果:
这个问题还是蛮有意思的,把YOWO用在“打架识别”,应该很有前途^_^
论文地址:
https://arxiv.org/pdf/1911.06644.pdf
项目地址:
https://github.com/wei-tim/YOWO
(还未开源,但已经引起了很多人关注!)