动态 | 谷歌发布AVA数据库:5万个精细标注视频片段,助力识别人类动作

AI科技评论按:在计算机视觉研究中,识别视频中人的动作是一个基础研究问题。个人视频搜索和发现、运动分析和手势交流等应用中,都会用到这项至关重要的技术。尽管过去的几年里在图像中分类和识别物体的技术上,我们已经取得了令人振奋的突破,但识别人类的动作仍然是一个巨大的挑战。从本质上来说,视频中人的行为更难被明确定义,而物体的定义更为明确。所以构建精细动作标记的视频数据集非常困难。目前虽然有许多基准数据集,比如UCF101、ActivityNet和DeepMind Kinetics,采用基于图像分类的标签方案,为数据集中的每个视频或视频片段分配一个标签,但不存在面向复杂场景的视数据集,比如同一时刻多人不同动作的场景。

为了进一步研究识别人类动作的技术,AI科技评论了解到,谷歌发布了AVA (Atomic Visual Actions)数据库,意思是“原子视觉动作”,这一新数据集为扩展视频序列中的每个人打上了多个动作标签。 AVA数据集由YouTube公开视频的URL组成,这些视频被80个原子动作标注,例如走路,踢东西,握手等,所有动作都具有时空定位,产生5.76万个的视频片段,9.6万个人类动作,以及21万个的动作标签。

您可以访问AVA网站,来探索数据集和下载标注,您也可以阅读谷歌发表于arXiv上的论文,了解该数据集的设计和开发。

图1. AVA网站截图

与其他动作标签数据集相比,AVA具有以下主要特点:

  • 基于人的标签:每个动作标签都与人相关联,而不是与整段视频或剪辑关联。常见的场景是同一场景中有多个人在执行不同动作,为这些动作分配不同的标签。
  • 基于原子视觉动作:谷歌将动作标签限制在精细的时间尺度(3秒),在这个尺度上动作都是物理动作,并具有清晰的视觉特征。
  • 基于真实视频资料:谷歌把电影作为AVA的数据来源,包括不同国家、不同流派的电影。因此,数据源覆盖了大部分人类行为。

图2. 3秒视频片段中间帧中的红色边框标注(为清晰起见,每个示例仅显示一个边界框)

为了创建AVA,谷歌首先从YouTube收集了大量多样化的视频内容,内容集中在是电影和电视这两个类别,视频里有不同国籍的专业演员。每个视频分析其中15分钟的剪辑片段,并这个片段均匀分割成300个不重叠小片段,每一段3秒钟,这种采样策略保留了动作序列的时间顺序。

接下来,在每个3秒片段的中间帧,手动标记边框里的人。打标者从预定义的80个原子动作词汇中,选择适当数量的标签来描述人物的行为动作。这些行为分为三组:姿态/移动动作、人和物体的交互、人与人的交互。因为对所有人的动作都进行了全面打标,因此AVA的标签频率是呈现长尾分布的,如下图所示。

图3. AVA的原子动作标签频次分布图(x 轴所示标签只是词汇表的一部分)

由于AVA的独特设计,我们可以从中能够得出一些有趣的统计信息,而这些信息从其他现有数据集中是统计不出来的。例如,数据集中多数人具有两个以上的动作标签,那么我们可以找出不同行为标签共现模式(co-occurrence pattern)。下图展示了AVA中最有可能并发的动作对及其同时出现的频率分值,例如人们经常在唱歌时玩乐器,和小孩玩耍的时抱起他,亲吻时拥抱。

图4. AVA中统计得出共现频率分值最高的动作对

为了评估AVA数据集在人类行为识别系统中的有效性,谷歌设计了一个现有的基线深度学习模型,该模型在较小的JHMDB数据集上获得了很好的绩效。由于视频变焦、背景杂乱、摄影角度和外貌变化等问题,该模型实现了较为不错的表现,正确识别AVA中动作的平均准确率达到18.4%,这表明AVA数据集可用于开发和评估新的动作识别架构和算法。

谷歌希望AVA的发布能加速人类动作识别系统的发展。基于具有精细时空粒度的标签,对个人复杂活动进行建模将变为现实。谷歌将继续扩充和改进AVA,并渴望听取来自社区的反馈,帮助校正AVA数据集未来的发展方向。请加入AVA Mail List(https://groups.google.com/forum/#!forum/ava-dataset-users),即可获得数据集更新,并向谷歌发送电子邮件反馈建议。

via Announcing AVA: A Finely Labeled Video Dataset for Human Action Understanding

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-10-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏鸿的学习笔记

深度神经网络的实践效果分析

由于深度神经网络(DNN)作为计算机视觉领域的突出技术的出现,ImageNet分类在推进最新技术方面发挥了重要作用。 虽然准确度在稳定增加,但获胜模型的资源利用...

621
来自专栏大数据文摘

深度丨掌握地球?智能机器带来的真正风险

1364
来自专栏媒矿工厂

视频体验评估标准(uVES1.0)模型及算法解读

视频业务快速发展,已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高,提升视频用户体验质量已经成为视频服务的主要竞争因素。

1060
来自专栏AI科技大本营的专栏

AI是万能的吗?当前AI仍面临的难题是什么?

【导读】谈到人工智能(特别是计算机视觉领域),大家关注的都是这一领域不断取得的进步,然而人工智能到底发展到什么程度了?AI 已经成为万能的了吗?Heuritec...

792
来自专栏AI科技大本营的专栏

传统程序员要不要转行到AI?

近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是 Goog...

571
来自专栏AI科技大本营的专栏

周末漫谈 | 都说想转型机器学习,到你真的有机会吗?机器学习下一个创新点到底在哪里?

本期话题 这个周六,让我们来聊聊当前火热的机器学习,它未来的机会在哪里呢? 机器学习、计算机视觉下一步的创新点在哪里? 随着硬件的迭代,神经网络的隐藏层可以...

2819
来自专栏周景超的专栏

腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍 ( 2 )

近期,我们团队在人脸识别的关键任务上也取得突破,在人脸识别的国际权威评测平台(Megaface Challenge)中取得了国际领先的成果。同时,在人脸检测中,...

1.1K3
来自专栏腾讯大数据的专栏

推荐系统算法初探

0. 序言 最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的: ? 而对于刚接触这个领域的我来说,是这样...

25910
来自专栏新智元

机器学习实践:用一个管道解决多个 Kaggle 竞赛问题(52PPT)

【新智元导读】与机器学习不同,数据挖掘关注对特定问题及其数据的理解,针对每个问题设计最适合的解决方案。但本文作者却使用同一个管道,解决 3 个不同数据分析预测问...

3437

实用的机器学习问题

什么是机器学习?我们也许可以阅读机器学习的权威定义,实际上,机器学习由解决的问题来定义。因此,理解机器学习的最好的方法就是看一些例题。

2937

扫描关注云+社区