ECCV 2020 | 利用单帧标注进行视频时序动作检测

Amusi

发布于 2020-07-17 11:27:00

1K0

发布于 2020-07-17 11:27:00

文章被收录于专栏：CVerCVer

论文已上传，文末附下载方式

本文作者：Flowerfan https://zhuanlan.zhihu.com/p/158594785 本文已由原作者授权，不得擅自二次转载

论文题目: SF-Net: Single-Frame Supervision for Temporal Action Localization

论文地址: arxiv.org/abs/2003.06845

作者：Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, Zheng Shou

Code: https://github.com/Flowerfan/SF-Net

Task & Motivation:

本文解决的是视频分析中的时序动作检测问题，目的是根据给定的训练数据训练模型，并且在测试视频中检测出目标动作的发生时间范围。
以前的视频时序动作检测训练数据主要有两种，一种是给定视频中所有动作的开始起止时间（fully supervised), 另外一种是指只给整个视频中出现的动作类别（weakly supervised)。本文采用的是介于两种之间的标注数据，即对视频中每一个动作，只给定动作中的标记数据。如下图：

Fully 标注一般需要给出每个动作的起止结束时间，这个在人工标记的时候比较麻烦。在标记视频动作边界的时候，标注者可能需要反复观看视频。而这个过程及其耗时，对于某些段时间内发生的动作，可能还需要放慢倍数对动作的时间边界进行准确的标注。一个10分钟的视频中有10个目标动作，人工标记的时间很可能远远超过10min，有时候还需要多个标注者标注同一个视频来校准边界标注。
为了缩短人工标记时间，weakly 标注应运而生。这两年也出现了很多基于weakly标注的工作。然而基于weakly标注训练得到的模型比基于fully标注训练得到的模型性能要差很多（评估指标主要是AP@IoU, 这一点和object detection 比较相似). 另外目前的两个主流数据集（THUMOS, ActivityNet）每一个视频中基本是单一动作，THUMOS是一个视频中有多个动作，但是多个动作基本是同一类别，AcitivityNet数据集中一个视频基本只含1-2个动作。如果单个视频中包含多个不同多动作，而训练数据集又不是很大的，weakly的方法失效的概率比较大。
此外，对于某些动作检测的场景，准确的视频时序定位可能没有太必要，我们有时只需定位到的相关的动作发生区间即可。例如，对于某个车辆违章的动作，检察员在观看的时候，检测系统只需给出违章动作出现的大致时间点即可，检察员然后再去相应时间区检查违章情况。
基于上面的考虑，本文提出的一种标注方法——单帧动作标注（Single-Frame）。在观看视频的时候（可以多倍速看节省时间），标注者只需要注意到目标动作视频出现的话，便可以按下暂停键进行动作类别标记，这个和weakly标记几乎是完全一致的，并且标记的动作单帧时间可以由标注工具自动生成，不需要额外的人工记录。因此，我们用和weakly 差不多的标注时间，得到了一种监督信息更强的标注数据——单帧动作标注。这样训练的时候，这些单帧动作时间可以为模型提供更多更有效的信息，取得更好的效果。我们设计的简易的标注工具大概是下面这样：

Framework

基于视频的的单帧标注，我们设计的SF-Net模型框架长这样：

左边的是模型训练的主要逻辑。首先利用标注的单帧数据进行模型训练，并且在训练过程中，选出额外背景和动作帧作为额外的数据进行训练。
右边的事模型的主要构成。模型主要包含两个模块，动作分类模块（classificaiton module）和动作识别模块（actionness module)。动作分类模块包含视频整体分类和动作帧分类。视频整体分类的思路与weakly基本一致，采用temporal pooling得到视频全局特征直接分类。动作识别模块主要用于区分每一帧是否包含动作和挖掘额外的动作背景帧进行再训练。
背景帧挖掘是基于分类（classification score）和动作(actionnes score)得分来判别的。为了进一步提升background的准确度，在实现的过程中，我们对一个batch的视频中的所有帧的分类和动作得分进行排序，背景类别得分比较高的帧会作为新的标记数据加入到模型训练中。

Dataset

我们一共在三个数据集上进项了标注， GTEA, BEOID, 和 THUMOS14。（ActivityNet实在是标不动了）。GTEA 和 BEOID 都是相对比较小的数据集，但是视频的难度比THUMOS14和ActivtyNet要到。一是这两个数据集都是第一人称视角的数据集，背景晃动比较厉害。其次就是这两个数据集中一个视频通常包含很多个不同类别的动作。

Experiment

上面是Fully, Wekaly, 和single-frame 使用同一模型的比较结果。可以看到再GTEA 和 BEOID这两个数据集上，weakly的方法失效了，检测结果比较差。在使用single-frame的标注数据后，我们的模型与基于fully-supervised的模型相比，对于目标动作的检测性能几乎差不多（lower IoU)。但对于动作的精细发生区间检测（higher IoU)，模型的性能表现一般。这主要是由于精细视频动作边界还是需要更多的监督信息来指导模型训练

上面是在THUMOS14数据集上和其他方法比较结果。结论基本也是一样的。当只需要定位目标动作的大致发生区间的话，我们的方法还是能取得一个不错的性能。

感谢看完～～欢迎点赞转发评论~~

欢迎大家关注悉尼科技大学ReLER实验室的后续工作！

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2020-07-15，如有侵权请联系 cloudcommunity@tencent.com 删除

linux

本文分享自 CVer 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

linux

登录后参与评论

0 条评论

热度

ECCV 2020 | 利用单帧标注进行视频时序动作检测

ECCV 2020 | 利用单帧标注进行视频时序动作检测

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐