前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >声音识别的ImageNet诞生,谷歌发布大规模音频数据集

声音识别的ImageNet诞生,谷歌发布大规模音频数据集

作者头像
新智元
发布2018-03-27 15:01:17
1.7K0
发布2018-03-27 15:01:17
举报
文章被收录于专栏:新智元新智元

【新智元导读】谷歌今天发布了一个在声音识别上对标图像识别领域中的ImageNet的大型数据库。包含2100万标注视频、5800个小时的音频、527种类型的标注声音。

谷歌机器感知研究小组(Machine Perception Research)最新发布了一个大规模的音频数据集AudioSet。

根据谷歌在官网的介绍,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

发布者写道:通过发布AudioSet,我们希望为音频事件检测提供一个常见的,现实层面的评估,同时开始提供一个全面的声音事件词汇表。

数据量:2100万标注视频、5800个小时的音频、527个类型的标注声音

数据例子:

声音识别领域的ImageNet

音频事件识别在机器感知中是一个新出现的难题,它的目标是让机器具备像人一样能从音频中识别并关联声音的能力。类似的问题,如图像中的对象检测,已经从大型数据集(主要是ImageNet)中获得了巨大的收益。

本文介绍了AudioSet的创建,这是一个手动注释音频事件的大规模数据集,努力弥合图像和音频研究之间数据可用性的差距。使用由文献和手动策划指导的635个音频类的精心构造的分层类目,我们收集来自人类标签器的数据,探测在10秒段的YouTube视频中特定音频类的存在。提出了使用基于元数据,上下文(例如,链接)和内容分析的搜索来标记。结果获得了覆盖范围和大小都前所未有的数据集,我们希望这能大大提高高性能音频事件识别器的开发。

更多详情,见论文https://research.google.com/pubs/archive/45857.pdf

如何使用数据库:https://research.google.com/audioset/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档