业界 | 谷歌开放语音命令数据集,助力初学者利用深度学习解决音频识别问题

选自Google Research

机器之心编译

参与:路雪

近日,谷歌开放语音命令数据集,发布新的音频识别教程,旨在帮助初学者利用深度学习解决语音识别和其他音频识别问题。

  • 语音命令数据集地址:http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
  • 音频识别教程地址:https://www.tensorflow.org/versions/master/tutorials/audio_recognition

在谷歌,我们经常被问到如何使用深度学习解决语音识别和其他音频识别问题,比如检测关键词或命令。尽管已经有很多大型开源语音识别系统,如 Kaldi,这些系统可以把神经网络作为一个模块使用,但是它们的复杂性导致其很难用于指导简单的任务。更重要的是,并没有多少适合初学者的免费、开源数据集(部分数据集需要在构建神经模型之前进行预处理)或适合简单的关键词检测任务的数据集。

为了解决这些问题,TensorFlow 和 AIY 团队创建了语音命令数据集,并用它向 TensorFlow 中添加训练和推断的示例代码。该数据集有 30 个短单词的 65000 个长度 1 秒钟的发音,这些音频由数千人通过 AIY 网站提供。它随 Creative Commons BY 4.0 license 发布,并将随着音频的增多持续发布新版本。该数据集旨在帮助构建基础但有用的应用程序语音接口,包括常用单词「是」(Yes)、「否」(No)、数字和方向词。我们还开源了用于创建该数据集的基础架构,希望更多人使用它创建自己的数据集,尤其是能够覆盖到服务水平不足的语言和应用。

想自己试试,那么下载 TensorFlow 安卓演示应用程序的预置数据集(http://ci.tensorflow.org/view/Nightly/job/nightly-android/lastSuccessfulBuild/artifact/out/tensorflow_demo.apk)并打开「TF Speech」。你需要给TFspeech应用授予麦克风访问权限,然后就会看到一个十个单词的列表,你说哪个单词,它就会点亮。

识别结果取决于你的语音模式是否被数据集覆盖,因此这并不完美,商业语音识别系统比这个教学示例复杂的多。但是我们希望,随着更多口音和变体加入数据集,社区向 TensorFlow 贡献改进后的模型,我们能够看到数据集的不断改进和扩展。

你还可以通过 TensorFlow.org 上新的音频识别教程学习如何训练自己的模型。有了该框架的最新开发版本(https://hub.docker.com/r/tensorflow/tensorflow/)和现代的台式机,你可以下载该数据集并在几小时内训练模型。你还拥有多种选择来为不同的问题定制神经网络,产生不同的延迟时间、规模、精度的平衡以适应不同的平台。

我们很期待看到大家在该数据集和教程的帮助下构建的新应用,因此我希望大家有机会利用这些资源,开始做音频识别任务!

  • Interspeech 2015 会议上展示的《Convolutional Neural Networks for Small-footprint Keyword Spotting》(http://www.isca-speech.org/archive/interspeech_2015/papers/i15_1478.pdf)中对该网络的架构进行了描述。

原文链接:https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏鸿的学习笔记

Machine learning at Quora(详细版上)

在Quora,我们已经使用机器学习方法一段时间了。我们不断提出新的方法,并对现有方法进行大的改进。 重要的是要注意,所有这些改进都是首先通过使用许多不同类型的离...

8620
来自专栏CSDN技术头条

深度 | 对比深度学习十大框架:TensorFlow最流行但并不是最好

2016 年已经过去,BEEVA Labs 数据分析师 Ricardo Guerrero Gomez-Ol 近日在 Medium 上发表了一篇文章,盘点了目前最...

37570
来自专栏新智元

阿里妈妈首次公开新一代智能广告检索模型,重新定义传统搜索框架

43250
来自专栏PPV课数据科学社区

【入门】怎么培养数据分析的能力?

一些个人的工作经验,希望对后来人有帮助。首先总结下平时数据分析的一般步骤。 第一步:数据准备:(70%时间) 获取数据(爬虫,数据仓库) 验证数据 数据清理(缺...

29160
来自专栏机器之心

业界 | 深度学习芯片公司Graphcore初探:颠覆GPU、FPGA和CPU的新一代处理器IPU

选自Nextplatform 作者:Nicole Hemsoth 机器之心编译 参与:朱朝阳、侯韵楚、李亚洲、黄小天 ? 作为思维锻炼,让我们将神经网络视为大量...

28740
来自专栏牛肉圆粉不加葱

CTR 预估候选集选择方案

最近一段日子,怎么在一个大的新闻候选集合(假设有10w条新闻)选出用来做 CTR 预估的小集合(假设是100条新闻)困扰我们已久,昨夜我夜观星象,突来灵感,遂有...

12220
来自专栏机器人网

资源盘点:有用的自动化数据科学和机器学习软件

ABM: Automatic Business Modeler:可自动构建准确和可解释的预测模型,商业软件。 AutoDiscovery from Butl...

38270
来自专栏AI研习社

万事开头难!入门TensorFlow,这9个问题TF Boys必须要搞清楚

作为目前最普及的深度学习框架,TensorFlow 实不必多做介绍。 无论国内国外,有相当数量的程序员以 TensorFlow 入门深度学习开发,逐步走上职业机...

409150
来自专栏人工智能头条

Google发布最新「语音命令」数据集,可有效提高关键词识别系统性能

21920
来自专栏腾讯开源的专栏

【开源公告】腾讯织云Metis智能运维学件平台正式开源

1 项目描述 “Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”...

1.5K30

扫码关注云+社区

领取腾讯云代金券