声音识别的ImageNet诞生，谷歌发布大规模音频数据集

新智元

发布于 2018-03-27 15:01:17

1.7K0

发布于 2018-03-27 15:01:17

文章被收录于专栏：新智元

【新智元导读】谷歌今天发布了一个在声音识别上对标图像识别领域中的ImageNet的大型数据库。包含2100万标注视频、5800个小时的音频、527种类型的标注声音。

谷歌机器感知研究小组（Machine Perception Research）最新发布了一个大规模的音频数据集AudioSet。

根据谷歌在官网的介绍，AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图，覆盖广泛的人类和动物声音，乐器和风格以及常见的日常环境声音。

发布者写道：通过发布AudioSet，我们希望为音频事件检测提供一个常见的，现实层面的评估，同时开始提供一个全面的声音事件词汇表。

数据量：2100万标注视频、5800个小时的音频、527个类型的标注声音

数据例子：

声音识别领域的ImageNet

音频事件识别在机器感知中是一个新出现的难题，它的目标是让机器具备像人一样能从音频中识别并关联声音的能力。类似的问题，如图像中的对象检测，已经从大型数据集（主要是ImageNet）中获得了巨大的收益。

本文介绍了AudioSet的创建，这是一个手动注释音频事件的大规模数据集，努力弥合图像和音频研究之间数据可用性的差距。使用由文献和手动策划指导的635个音频类的精心构造的分层类目，我们收集来自人类标签器的数据，探测在10秒段的YouTube视频中特定音频类的存在。提出了使用基于元数据，上下文（例如，链接）和内容分析的搜索来标记。结果获得了覆盖范围和大小都前所未有的数据集，我们希望这能大大提高高性能音频事件识别器的开发。

更多详情，见论文https://research.google.com/pubs/archive/45857.pdf

如何使用数据库：https://research.google.com/audioset/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-08，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

声音识别的ImageNet诞生，谷歌发布大规模音频数据集

声音识别的ImageNet诞生，谷歌发布大规模音频数据集

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐