语音识别取得了两个里程碑进展 Mozilla发布开源语音识别模型和语音数据集

技术的进步推动了语音界面的发展,通过机器学习工具的普及,使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。

Mozilla(缩写MF或MoFo)全称Mozilla基金会,是为支持和领导开源的Mozilla项目而设立的一个非营利组织。Mozilla对语音识别的潜力感到兴奋。他们相信这项技术能够并且将会带来一波创新产品和服务的浪潮,并且应该对所有人开放。

  • 更多信息:https://blog.mozilla.org/blog/2017/07/28/machine-learning-speech-recognition/

上个月29日,Mozilla的机器学习小组的语音识别工作取得了两个重要的里程碑进展。其中之一是Mozilla的开源语音识别模型首次发布,该模型的准确性接近人类在听同样的录音时的感知。其次,Mozilla还发布了世界上第二大公开的语音数据集,这是全球近2万名用户的贡献。

一个接近用户期望性能的开放源码的语音文本引擎 目前只有少数几家大公司的商业质量语音识别服务是可行的。这就减少了用户的选择,也减少了初创公司、研究人员甚至更大的公司的可用功能,这些公司想要为他们的产品和服务提供支持。

这就是为什么Mozilla将DeepSpeech作为一个开放源码项目。Mozilla和一群志同道合的开发人员、公司和研究人员组成的社区一起,应用了复杂的机器学习技术和各种各样的创新,在LibriSpeech的测试数据集上构建了一个语音到文本的引擎,出错率仅为6.5%。

  • DeepSpeech项目地址:https://github.com/mozilla/DeepSpeech

在发布的第一个版本中,引擎包含了Python、NodeJS和一个命令行二进制代码的预构建包,开发者可以马上使用它来进行语音识别。

构建世界上最多样化的公开语音数据集,为训练语音技术最优化 如此少的服务在商业上可用的一个原因是缺乏数据。创业公司、研究人员或任何想要建立语音技术的人都需要高质量的、转录的语音数据来训练机器学习算法。现在,他们只能访问相当有限的数据集。

为了解决这一障碍,Mozilla在今年7月启动了Common Voice项目。目标是让人们可以很容易地把他们的声音捐赠给一个公开的数据库,这样就可以建立一个语音数据集,每个人都可以用它来训练新的语音应用程序。

  • Common Voice项目:https://voice.mozilla.org/

到目前为止,Mozilla已经发布了第一批捐赠者的声音:近40万种录音,相当于500小时的演讲。任何人都可以下载这些数据。

  • 下载地址:https://voice.mozilla.org/data

Mozilla收到了来自全球范围内的2万多人提供的不同的声音。通常,现有的语音识别服务无法理解不同的口音,而且大多数情况,比起女性更善于理解男性的语音——这是语音识别服务接受训练的数据中存在的偏见结果。Mozilla希望说话者的数量和他们的不同的口音能够创造出一个全球性的代表数据集,从而带来更具包容性的技术。

为此,Mozilla开始使用英语,并且正在努力确保从2018年上半年开始,Common Voice项目能够支持多种语言的语音捐赠。最后,当经历了寻找可公开的语音数据集的挑战时,Mozilla还收集了所有其他我们所知道的大型语音收集的链接。

Mozilla认为,技术应该是开放的,所有人都可以访问,包括语音。Mozilla开发这种技术的方法是由设计开放的,他们非常欢迎更多的合作者和贡献者与之一起工作。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

业界 | 别跟风了!你的公司根本不需要数据科学家

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决...

8900
来自专栏大数据文摘

【牛!】物理学博士教你怎样分析微博数据,怎样涨粉

12730
来自专栏新智元

【开源之战】在搜集人类语音数据上,谷歌与火狐展开正面交锋

【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章...

30530
来自专栏VRPinea

PC VR购机小Tip:选对一款VR内容分发平台,每天都是Happy Day

29440
来自专栏华章科技

剧透人生!你什么时候结婚换工作甚至狗带,Facebook都知道

你关心的这些人生重大节点,有人希望比你提前知道它们何时发生,并基于此对你精准投放广告。

10230
来自专栏PPV课数据科学社区

【推荐】广告主不知道的13条数据

1在刷朋友圈时间上,“60前”平均花费时间的最小值为47分钟,“90后”为42分钟。 ? 各年龄组平均刷朋友圈时间最小值估计,腾讯研究院 2015年6月 “60...

36090
来自专栏腾讯大讲堂的专栏

运营是什么

? 作者:邬嘉文,精通用户研究,推荐算法,Growth用户运营,结果在微信都用不上。 从市场调查转行腾讯做互联网,那时候还不懂什么是运营。记得有一份大神级PP...

18020
来自专栏PPV课数据科学社区

13条“不正常”数据,世界不是你想的那样…

点击上方 “蓝色字” 可关注我们! 1. 在刷朋友圈时间上,“60前”平均花费时间的最小值为47分钟,“90后”为42分钟。 ? 各年龄组平均刷朋友圈时间最...

36770
来自专栏DevOps时代的专栏

台湾资深老专家:你实施敏捷的路子对吗?

作者简介: ? Ruddy Lee(李智桦)老师,DevOpsDays北京站金牌讲师,台湾著名精益布道师,敏捷专家,著有《精益开发与看板方法 》。 台湾敏捷大师...

23770
来自专栏华章科技

生活在大数据下的我们

1在刷朋友圈时间上,“60前”平均花费时间的最小值为47分钟,“90后”为42分钟。

9020

扫码关注云+社区

领取腾讯云代金券