前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >资源 | Mozilla开源语音识别模型和世界第二大语音数据集

资源 | Mozilla开源语音识别模型和世界第二大语音数据集

作者头像
机器之心
发布2018-05-10 16:07:55
1.2K0
发布2018-05-10 16:07:55
举报
文章被收录于专栏:机器之心机器之心

选自Mozilla

机器之心编译

参与:刘晓坤

Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。

  • 开源语音识别模型:https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/
  • 公开语音数据集:https://medium.com/mozilla-open-innovation/sharing-our-common-

DeepSpeech:一个开源的语音到文本的转换引擎,可以达到用户期待的高性能

目前市场上只有少量可用的商业性质的语音识别服务,且被少数几个大公司占据。这限制了初创公司、研究者,甚至那些希望在产品和服务中引入语音功能的大型公司的用户选择和可选特性。

这也是 Mozilla 启动并将 DeepSpeech 作为开源项目的初衷。和一群志同道合的开发者、公司和研究者一起,该公司通过应用复杂的机器学习技术,并开发多项新技术建立了一个语音到文本的转换引擎,它在 LibrSpeech 的 test-clean 数据集上仅有 6.5% 的词错率。

DeepSpeech 项目链接:https://github.com/mozilla/DeepSpeech

Mozilla 首次发布的 DeepSpeech 产品中包括了预构建的 Python 包、NodeJS 包和一个命令行二进制,从而使开发者可以立刻使用并进行语音识别实验。

Common Voice:建立世界上种类最多的公开语音数据集,以及开发最优化的语音训练技术

商业化服务如此少的一个原因是数据的缺乏。初创公司、研究者或任何其他想要建立具备语音功能的技术需要高质量的转录语音数据用于训练机器学习算法。目前他们只能获得相当有限的数据集。

为了解决这个问题,Mozilla 在今年七月份启动了 Common Voice 项目(https://voice.mozilla.org/)。该项目的目标是使人们能轻松地将他们的语音数据贡献到一个公开数据集上,从而建立一个所有人都可用于训练新的具备语音功能应用的语音数据集。

本次,Mozilla 公布了贡献数据集的第一部分:大约 400,000 份录音,500 个小时时长。所有人都可以在这里下载:https://voice.mozilla.org/data

Mozilla 认为,该数据集最重要的贡献是向我们展示了整个世界的样貌——它拥有超过 20000 人的贡献者,新的数据集反映了全世界的语音多样性。通常现有的语音识别服务无法理解不同的方言,且很多服务对男性的识别效果高于对女性的识别效果,这是由训练数据带来的偏差。Mozilla 期望贡献者的数量规模和不同的背景、方言可以为我们创建一个全球化的代表性数据集,进而开发出更具包容性的技术。

虽然目前主要是英文数据,但是未来 Common Voice 将支持对多种语言的贡献,这个计划将从 2018 年上半年开始。

最后,Mozilla 还搜集了下载所有目前常用的其它大型语音数据集的链接,进一步缓解数据集匮乏问题。

原文链接:https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档