首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【他山之石】ICCV 2021—MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

【他山之石】ICCV 2021—MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

作者头像
马上科普尚尚
发布2021-07-30 16:35:24
7120
发布2021-07-30 16:35:24
举报

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

来源:知乎—王利民

地址:https://zhuanlan.zhihu.com/p/389745021

论文链接:MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

比赛主页链接:

https://deeperaction.github.io/multisports/

GitHub链接:

https://github.com/MCG-NJU/MultiSports

MultiSports可视化视频

01

背景介绍

今天介绍一个我们新提出的时空动作检测数据集MultiSports,同时也是DeeperAction比赛的赛道二。首先介绍一下什么是时空动作检测任务 (Spatio-Temporal Action Detection): 输入一段未剪辑的视频 (untrimmed video),输出视频中人物的动作类别、动作发生的时序区间以及在此区间内的人物框。

现有数据集主要分为两大类:

1. 以UCF101-24和JHMDB为代表的密集标注数据集 (25FPS),这类数据集每个视频只有一种动作,大部分视频是单人在做一些语义简单的重复动作,动作类别与背景高度相关。

2. 以AVA为代表的稀疏标注数据集 (1FPS),由于稀疏标注,他们没有给出明确的动作边界,现有的方法更像是instance级别的动作识别,弱化时序定位;同时动作类别是日常的原子动作,运动速度慢、形变小,跟踪难度较低,分类不需要复杂的人与物与环境的建模和推理。

02

研究动机

基于对现有数据集的分析,我们认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步,我们希望这个数据集满足以下特征:

多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。

分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。

时序:动作边界定义准确。

跟踪:运动速度快,形变大,存在遮挡。

基于以上特点我们以集体运动作为数据集背景,选择了足球、篮球、排球、健美操四种运动共66种动作。

03

应用场景

除了学术研究,我们的MultiSports还有很多的落地场景。结合Re-ID技术,球类领域我们可以做每位球员的技术统计 (目前是人工统计),例如在篮球中如果一个人接到队友传球之后没有任何其他动作直接投篮成功,则记为传球队友的一次助攻,如果一个人在投篮时有人来干扰投篮,那么这个投篮的难度指数会随着干扰投篮人数的增多而增大,这位球员成功后投篮技术评估则会更高,这些为制定训练计划、比赛策略和俱乐部之间球员交易提供信息,同时也可用于比赛解说、特效制作等;多人操领域我们可以做AI裁判,对运动员表现进行打分,在即将到来的东京奥运会,已将AI裁判引入了单人体操运动。我们相信竞技体育是计算机视觉一个很好的落地场景,而时空动作检测是其中一个很重要的技术。

04

标注手册

(a) 类别结构图 (b) 标注用户界面

为了保证专业性,健美操我们采用了官方手册FIG[1]。对于三大球,我们邀请了南京大学足、篮、排校队的高水平运动员为我们制定了手册。我们采用迭代的方式,首先根据运动员们的专业建议给出初始动作列表、类别定义以及边界定义,生成初版手册,然后根据初版手册让运动员对具体数据进行试标,并且提出类别定义混淆、边界定义不准确、遗漏的动作类别等问题,根据运动员的反馈我们不断调整类别列表、类别定义和边界定义,迭代多次直到无歧义存在,敲定最终手册,开始大规模标注,四种运动包含66个动作,如上图(a)。

05

数据收集

对于每种运动,我们在YouTube上搜索运动+比赛类别,比如volleyball+World Cup或者是volleyball+Olympics,根据搜索热度收集数据,共收集了247场比赛。我们选取的是1080P或者720P的高质量比赛视频,然后手工把整场比赛切割成短视频便于标注,我们只关注比赛部分,因此无关片段全部被切除,例如入场、颁奖、暂停休息等内容。同时我们手工控制了参赛国家、比赛等级以及性别的多样性。

06

数据标注

由于我们既需要拥有专业知识的细粒度类别标注,又需要密集的25FPS人物框标注,我们采用了两阶段标注。第一阶段由专业运动员根据手册标注动作类别和边界,以及边界内第一帧的人物框;第二阶段我们首先采用单目标跟踪器FCOT[2]在每个动作区间内初步生成人物框,然后采用众包的方式对人物框进行调整 (25FPS),这些标注人员不需要专业知识。

07

质量控制

第一阶段,每段视频至少有一个有专业知识的人进行二次检查,修改错误类别,不准确的边界,增加漏标的动作等;对于第二阶段,每段视频以5FPS的方式播放进行二次检查,修改不准确的框。

08

数据统计

MutliSports有66个动作类别,每种运动800个片段,共3200个片段。Table 1将MultiSports与现有数据集进行了对比,由于AVA、DALY和AVA-Kinetics是稀疏标注我们不进行直接对比,其中AVA-Kinetics是在AVA基础上,加入了部分Kinetics的裁剪好的数据(trimmed video),每个视频只标注一个关键帧,更关注动作识别而不是时空动作检测。与JHMDB和UCF101-24对比,我们有更长的视频(21.0s vs. 1.2s vs. 6.9s),更多的细粒度类别(66 vs. 21 vs. 24),更多的实例个数(37790 vs. 928 vs. 4458),每个视频平均实例个数也更多(11.8 vs. 1 vs. 1.4)。同时在所有数据集中我们包含最多的人物框。为了对动作边界进行精准定义,我们只标注了同一种动作普遍存在的部分,例如篮球中的传球,从球员胳膊向外伸直开始,球离手结束,不包含手拿球和做假动作的部分。因此我们的动作平均长度短于UCF和JHMDB,他们有很多重复性动作(骑马或者击剑),虽然动作长,但是很短的时间就可以确定类别。

从Fig.3中我们可以看出,每个动作类别实例个数从3到3514,呈长尾分布,这符合现实规律,为数据集带来了挑战。Fig 4.统计了动作长度的分布,动作长度跨度大以及不同运动之间长度分布的不同为准确检测动作时序边界带来新的挑战。

09

实验分析

我们在MultiSports上跑了几个UCF和AVA的典型方法,结果如Table 3.所示,对于UCF101-24的方法,我们发现他们在MultiSports上效果都大幅减低,其中ROAD降幅最大,video-mAP为0,这是一个只依靠单帧输入进行识别的方法,对于UCF和JHMDB,粗粒度动作类别与场景信息高度相关,单帧可以提供很多信息,但是MutliSports是在类似的背景下,多人做不同的动作,单帧信息无法识别动作类别。对于AVA的方法,slowfast和slowonly效果的差距在MultiSports上比在AVA上大很多,因为MultiSports比AVA运动速度和形变大很多,需要更密集的时序信息。从Fig 5.可以看出健美操是结果涨幅最大的运动,因为健美操是四种运动中速度和形变最大的运动。其他运动中一些时序长度短但是动作剧烈的类别涨幅也很大,例如篮球中的传球,足球中的解围,排球中的二次进攻。

10

错误分析

为了更好地分析数据集的难点,我们基于ACT[3]提出了一种更全面的错误分析方法,包含了十种错误,其中ER代表一个预测结果命中了一个已经被检测到的GT;EN代表一个预测结果和任何GT没有时空重合;EL代表了一个预测结果分类正确,时序定位准确,空间定位不准确;EC代表了一个预测结果分类错误,时空定位准确;ET代表了一个预测结果分类正确,时序定位不准确,空间定位准确;ECT,ETL,ECL,ECTL,代表了一个预测结果在某几个方面不准确;EM代表了没有被预测到的GT;错误分类可以被组织成一个决策树,具体在论文附录中提供。

SlowFast和MOC对比,我们发现SlowFast虽然AP值高于MOC,但是recall值(1-EM)比MOC低,因为其第一步person detector在MultiSports进行finetune,抑制了很多没有动作的人物框,减少了假阳例,但是很多难样例还是没有检测出来。对于MOC来说,错的最多的是EN和EC,显示了细粒度动作分类的困难,EN代表算法可以对人进行定位,但是无法准确地把他的动作识别为背景类,也属于分类问题。这也与MOC的训练策略有关系,MOC只在动作时序范围内采帧进行训练,虽然有其他位置有没有动作的人作为负样本,但是人物没有做任何动作的负样本仍然不够。另外可以看出,ECT,ECTL和ET也占了很大的一部分,显示时序检测比空间定位要难,因此更好地建模时序信息是很必要的。

11

消融实验

探究长时信息的重要性:K是MOC中一个很重要的参数,代表了输入帧的长度。从frame-mAP来看,虽然MultiSports比UCF101-24平均动作长度短,但是更需要长时信息建模。对于video-mAP来说,在MutliSports上的结果没有跟着K变大而变好,我们分析主要有两个原因:一是,MOC指出随着K变大,位移估计精度会下降,而MultiSports运动速度和形变都很大,位移分支不能准确的预测位移,对video-mAP的影响很大;二是MultiSports动作长度跨度很大,有9.2%的样例小于7帧,23.2%的样例小于11帧,固定长度K(如11)会损害时序定位的精度,影响video-mAP。总的来说,我们数据集需要更长的时序建模,更精确的位移估计以及更灵活的时序定位。

什么类别更具有挑战性:通过观察Fig 5.我们发现并不是数据越多的类别效果越好,与场景信息高度相关的类别(例如篮球中的罚篮(free throw))和健美操的基本动作(例如horizontal support和v support)虽然数量少但是效果好,健美操包含了基本动作和复合动作,复合动作包含了基本动作和自己的核心动作,因此识别复合动作需要更长时的建模。而对于长度短但是动作剧烈的一些类别(例如足球传球(pass)、篮球传球(pass)、足球拦截(interception))虽然数量多但是效果差。观察下面的混淆矩阵我们分析出一些挑战:

环境建模:例如篮球的三分投篮(3-point shot)和二分投篮(2-point shot),动作基本一致,需要区分投篮位置。

推理:例如排球的保护(protect)和防守(defend),动作基本一致,我们需要判断球是自家队友进攻但是被拦网拦回,还是对面进攻打过网的。

长时建模:例如足球的短传(pass)和长传(long ball),动作基本一致,我们需要判断球被传了多远来区分。

探究时序定位的重要性:我们分别采用trimmed和untrimmed的方式测试了SlowFast在AVA和MultiSports的结果。trimmed方式只评估有标注的帧的预测结果,untrimmed方式评估所有帧的预测结果。我们发现AVA只降了2% 而MultiSports降了11%,说明时序定位在我们数据集中非常重要。同时我们发现video-mAP@0.5降的值远大于video-mAP@0.2,说明精准的时序定位对高精度的时空动作检测至关重要。

探究清晰定义、高质量标注时序边界的作用:我们在训练集的GT中加入一些时序噪声,对于一个长度为L帧的视频,我们从(1, L)中随机选取一个新长度new_L,然后从(0, L-new_L)中随机选取开始点的位移,从原GT中采样,不改变空间信息。其他一切的设置保持一致,从下表中我们可以发现没有清晰的边界定义后,结果下降非常多,证明了MultiSports高质量时序边界的重要。

12

可视化

典型错误可视化:绿色的框代表GT,黄色的框代表预测结果,红色的框代表被漏检的结果。第一第二行:由于遮挡造成了漏检。第三第四行:ECT:突破(drive)被错分成了运球(dribble),同时时序边界不准确;EM:挡拆(screen),挡拆防守(pick-and-roll defensive)和协防(sag)漏检。

[1] Federation Internationale de Gymnastique. Aerobic gymnastics-code of points. FIG Aerobic Gymnastics FIG Executive Committee, 2017.

[2] Yutao Cui, Cheng Jiang, Limin Wang, and Gangshan Wu. Fully convolutional online tracking, 2021.

[3] Vicky Kalogeiton, Philippe Weinzaepfel, Vittorio Ferrari, and Cordelia Schmid. Action tubelet detector for spatiotemporal action localization. In ICCV, pages 4415–4423. IEEE Computer Society, 2017.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档