前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >媲美 ImageNet 的动作识别数据集,你知道哪些?

媲美 ImageNet 的动作识别数据集,你知道哪些?

作者头像
AI研习社
发布2019-08-29 16:26:52
1.9K0
发布2019-08-29 16:26:52
举报
文章被收录于专栏:AI研习社

原标题 | New Datasets for Action Recognition

作 者 | Kateryna Koidan

动作识别对于许多现实应用至关重要,包括视频监控、医疗保健和人机交互。我们需要怎么做才能根据这些视频中动作对视频片段进行分类?

我们需要识别视频片段的不同动作,这些动作可能在整个视频持续时间内进行,也可能没有。这看起来像图像分类问题,但在这种情况下,任务将扩展到多个帧,并进一步聚合每帧的预测。我们知道,在引入ImageNet数据集后,深度学习算法在图像分类方面做得相当出色。但是,我们是否能在视频分类或动作识别任务能取得相同的进步 ?

实际上,有许多行为将动作识别变成一项更具挑战性的任务。这包括巨大的计算成本、捕获长上下文,当然还有对良好数据集的需求。

一个好的动作识别问题数据集应具有与 ImageNet 相媲美的帧数和动作类型的多样性,以便将经过训练的体系结构概括为许多不同的任务。

幸运的是,去年提出了几个这样的数据集。让我们来看看。

Kinetics-600

视频数量:500000

动作类别:600

年份:2018

Kinetics-600数据集实例

我们从 Google DeepMind 团队的数据集开始。这是一个 Kinetics 数据集 - 为推进人类动作识别模型而创建的 YouTube URL 的大规模高质量数据集。其最后一个版本名为 Kinetics-600,包括大约 500000 个视频片段,涵盖 600 个人类动作类,每个动作类至少有 600 个视频片段。

Kinetics-600 中的每个片段均取自的YouTube 视频,持续约 10 秒,并标有单个类。片段已经经历了多轮的人为注释,为标记任务构建了单页 Web 应用程序,您可以看到下面的标签界面。

标签界面

如果一个工作人员对最开始问题"你能识别这个人所做动作的类别吗?”回答是“是”的话,他还需要回答“动作持续到最后一帧吗?” Kinetics-600 的创建者们还检查了数据集是否类别均衡,发现大约 15% 的动作类不平衡,但这不会导致性能上的偏差。 这些动作涵盖了广泛的类别,包括人与物体的互动,如演奏乐器,安排鲜花,修剪草坪,打蛋等。

Moments in Time

视频数量:1000000

动作类别:339

年份:2018

来自 Moments in Time 数据集的样本

Moments in Time 是另一个由 MIT-IBM 沃森人工智能实验室开发的大规模的数据集,它收集了100万个标记为3秒的视频,不仅限于人类行为,还包括人、动物、物体和自然现象,捕捉动态场景的要点。

上述所有场景都属于同一类别的“打开”,尽管它们在视觉上看起来非常不同。因此,正如研究人员所指出的,挑战在于开发深度学习算法,既能区分不同的操作,又能推广到同一操作中的其他代理和设置。

标签界面

从图像中可以看出,注释过程非常简单:如果场景中发生动作,则向工作人员显示视频动词对,并被要求按"是"或"否"键响应。对于训练集,研究人员通过注释运行每个视频至少3次,并且需要至少75%的人类共识。对于验证和测试集,他们将最少的批注数增加到 4,人类共识至少为 85%。

SLAC

视频数量:520,000,1.74M个2s的视频片段

动作类别:200

年份:2017

数据收集流程

麻省理工学院和Facebook的研究人员小组介绍了一个稀疏标记的ACTIONs数据集(SLAC)。该数据集侧重于人类行为,类似于 Kinetics,包括从 YouTube 检索到的 520K 多个未修剪视频,平均长度为 2.6 分钟。采用新颖的主动采样方法从视频中以2 秒为单位机芯剪辑和采样。这产生了 1.75M视频片段,包括 755K 阳性样本和 993K 阴性样本,由 70 个专业标注团队进行批过。

如您所见,此数据集的显著特征是存在负样本,如下图所示。

SLAC 数据集的负样本

数据集包括从 ActivityNet 数据集获取的 200 个动作类。

请注意,即使此数据集的论文于 2017 年 12 月发布,该数据集仍无法下载,希望之后能够提供下载。

VLOG

视频数量:11400

年份:2017

VLOG数据集的实例

VLOG数据集与以前的数据集在收集方式上有所不同。数据集的传统方法从列一个列表开始,然后搜索带有相应标签的视频。

然而,这种方法具有一定的局限,因为日常活动的视频是不太可能在互联网上出现并被标记。你能想象自己会上传和标记自己打开微波炉,打开冰箱,或起床的视频吗?人们更倾向于标记不寻常的东西,例如,在游泳池里跳,呈现天气,或玩竖琴。因此,可用数据集通常不平衡,包含异常事件,日常活动数据较少的这种情况较多。

为了解决这个问题,加利福尼亚大学的研究人员建议从我们实际需要的数据集开始,即交互丰富的视频数据,然后在动作发生后对其进行说明和分析。他们开始从生活方式VLOGs收集数据,VLOGs是一种非常受欢迎的视频类型,人们公开上传到YouTube,记录他们的生活。

数据收集过程

由于数据是隐式收集的,因此注释起来具有一定的挑战。研究人员决定关注交互的关键部分、手,以及它们如何在帧级别与语义对象交互。因此,此数据集还可以在理解手部动作的难题上取得进展。

最后

动作识别问题需要大量的计算成本和大量的数据。幸运的是,去年出现了几个非常好的数据集。与以前可用的基准(ActivityNet, UCF101, HMDB)一起,为显著改进动作识别系统的性能奠定了坚实基础。

via https://medium.com/neurohive-computer-vision/new-datasets-for-action-recognition-4610c5101823

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Kinetics-600
  • Moments in Time
    • SLAC
    • VLOG
    • 最后
    相关产品与服务
    腾讯云小微
    腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档