开源 | 谷歌开放大规模音频数据集 AudioSet,加速音频识别研究

选自Google Research

机器之心编译

参与:李亚洲、晏奇、微胖

近日,谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(包括 527 个标签)。此项研究论文已发表于最近正在新奥尔良举办的 IEEE ICASSP 2017 大会上。论文原文可点击文末「阅读原文」查看。

项目地址:https://github.com/audioset/ontology

AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频)。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

图:音频本体类别

通过发布 AndioSet,我们希望能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。

大型数据收集

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中,得到的数据集在音频事件类上有极好的覆盖。

图:每类别样本的数量

在我们 ICASSP 2017 论文中音频本体和数据集的构建有更加具体的描述。你可以在我们 GitHub 知识库中为音频本体作更多补充。数据集与机器提取特征(machine-extracted features)已可以下载 https://github.com/audioset/ontology

此项研究成果已经以论文的形式发表在了 IEEE ICASSP 2017 大会上:

论文:Audio Set: An ontology and human-labeled dataset for audio events

摘要

音频事件识别,类似人类识别音频事件并进行关联的能力,是机器感知研究中的一个新生问题。类似问题,比如识别图像中的目标研究已经从广泛数据集——主要是 ImageNet 中获益匪浅。这篇论文描述了大规模人工标记音频事件数据组 Audio Set 的建造过程。该数据组旨在弥合图片和音频研究之间存在的鸿沟。使用文献和人工管理指导下精细建构起来的 635 个音频类别的层级本体,我们搜集了源自人工标记者的大量数据,探查特定音频类别(10 秒时长的 YouTube 音频片段)的现状。建议使用基于元数据、文本(比如链接)以及内容分析的搜索对这些片段进行标记。结果,我们获得了一个宽度和大小都史无前例的数据集,我们希望它能实质上促进高水平音频事件识别程序的发展。

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1413
来自专栏新智元

DeepMind用深度学习模仿大脑推理,预测编码智能推进一大步!

【新智元导读】预测编码理论认为,大脑的感知、运动控制、记忆及其他高级功能,取决于真实经历和大脑对未来的预测之间的差异。DeepMind新推出的“生成查询网络”模...

1091
来自专栏专知

【紫冬观点】 刘成林:模式识别背后的人工智能局限

中科院自动化所刘成林研究员详述了人工智能在目前发展阶段,人脸识别、文字识别等典型问题的研究难点和重点。同时,刘成林指出,人脸识别和文字识别作为典型的模式识别问题...

1913
来自专栏奇点大数据

统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。 我们这本...

2514
来自专栏AI科技大本营的专栏

传统程序员转型AI做错了吗?

近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是 Goog...

1564
来自专栏人工智能

每个人都应该知道的十个机器学习常识

当别人在高谈阔论机器学习时,你却插不上嘴,这是一种怎样的体验?不懂机器学习没有关系,但你一定要知道下面的十个机器学习基本常识。曾经在Endeca、谷歌和Link...

2095
来自专栏数据的力量

深入浅出谈数据挖掘

1868
来自专栏人工智能快报

人工智能学会“听音辨声”

美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。

1794
来自专栏ATYUN订阅号

Facebook无监督机器学习翻译突破,表现优于监督模型

当从一种语言到另一种语言的翻译示例没有很多时(例如从英语到乌尔都语),Facebook使用无监督的机器学习来翻译其平台上的内容。

1081
来自专栏新智元

《科学》封面论文作者力作:搭建像人一样思考和学习的机器(附论文下载)

【新智元导读】纽约大学的B. Lake、MIT的J. Tenenbaum等人2015年底在《科学》刊发封面论文,描述“看一眼便能学会写字”的计算机。Lake、T...

3587

扫码关注云+社区

领取腾讯云代金券