语音识别取得了两个里程碑进展 Mozilla发布开源语音识别模型和语音数据集

技术的进步推动了语音界面的发展,通过机器学习工具的普及,使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。

Mozilla(缩写MF或MoFo)全称Mozilla基金会,是为支持和领导开源的Mozilla项目而设立的一个非营利组织。Mozilla对语音识别的潜力感到兴奋。他们相信这项技术能够并且将会带来一波创新产品和服务的浪潮,并且应该对所有人开放。

  • 更多信息:https://blog.mozilla.org/blog/2017/07/28/machine-learning-speech-recognition/

上个月29日,Mozilla的机器学习小组的语音识别工作取得了两个重要的里程碑进展。其中之一是Mozilla的开源语音识别模型首次发布,该模型的准确性接近人类在听同样的录音时的感知。其次,Mozilla还发布了世界上第二大公开的语音数据集,这是全球近2万名用户的贡献。

一个接近用户期望性能的开放源码的语音文本引擎 目前只有少数几家大公司的商业质量语音识别服务是可行的。这就减少了用户的选择,也减少了初创公司、研究人员甚至更大的公司的可用功能,这些公司想要为他们的产品和服务提供支持。

这就是为什么Mozilla将DeepSpeech作为一个开放源码项目。Mozilla和一群志同道合的开发人员、公司和研究人员组成的社区一起,应用了复杂的机器学习技术和各种各样的创新,在LibriSpeech的测试数据集上构建了一个语音到文本的引擎,出错率仅为6.5%。

  • DeepSpeech项目地址:https://github.com/mozilla/DeepSpeech

在发布的第一个版本中,引擎包含了Python、NodeJS和一个命令行二进制代码的预构建包,开发者可以马上使用它来进行语音识别。

构建世界上最多样化的公开语音数据集,为训练语音技术最优化 如此少的服务在商业上可用的一个原因是缺乏数据。创业公司、研究人员或任何想要建立语音技术的人都需要高质量的、转录的语音数据来训练机器学习算法。现在,他们只能访问相当有限的数据集。

为了解决这一障碍,Mozilla在今年7月启动了Common Voice项目。目标是让人们可以很容易地把他们的声音捐赠给一个公开的数据库,这样就可以建立一个语音数据集,每个人都可以用它来训练新的语音应用程序。

  • Common Voice项目:https://voice.mozilla.org/

到目前为止,Mozilla已经发布了第一批捐赠者的声音:近40万种录音,相当于500小时的演讲。任何人都可以下载这些数据。

  • 下载地址:https://voice.mozilla.org/data

Mozilla收到了来自全球范围内的2万多人提供的不同的声音。通常,现有的语音识别服务无法理解不同的口音,而且大多数情况,比起女性更善于理解男性的语音——这是语音识别服务接受训练的数据中存在的偏见结果。Mozilla希望说话者的数量和他们的不同的口音能够创造出一个全球性的代表数据集,从而带来更具包容性的技术。

为此,Mozilla开始使用英语,并且正在努力确保从2018年上半年开始,Common Voice项目能够支持多种语言的语音捐赠。最后,当经历了寻找可公开的语音数据集的挑战时,Mozilla还收集了所有其他我们所知道的大型语音收集的链接。

Mozilla认为,技术应该是开放的,所有人都可以访问,包括语音。Mozilla开发这种技术的方法是由设计开放的,他们非常欢迎更多的合作者和贡献者与之一起工作。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

物联网中的边缘计算:提高网络效率以减少流量

企业对边缘计算越来越感兴趣,因为随着更多物联网设备的部署,企业需要快速分析和处理它们生成数据的方法。目标是消除将数据传输回云或内部数据中心的需要。

1115
来自专栏新智元

【开源之战】在搜集人类语音数据上,谷歌与火狐展开正面交锋

【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章...

2953
来自专栏CDA数据分析师

【技术贴】物理学博士教你怎样分析微博数据,怎样涨粉

网上已经有太多关于怎么增加微博粉丝数,以及怎样让我们发的微博获得更多转发的建议了。我们并不知道这些建议是否有效,因为它们大都是建立在个人感觉上,而缺乏真正有说服...

1878
来自专栏华章科技

生活在大数据下的我们

1在刷朋友圈时间上,“60前”平均花费时间的最小值为47分钟,“90后”为42分钟。

672
来自专栏DevOps时代的专栏

台湾资深老专家:你实施敏捷的路子对吗?

作者简介: ? Ruddy Lee(李智桦)老师,DevOpsDays北京站金牌讲师,台湾著名精益布道师,敏捷专家,著有《精益开发与看板方法 》。 台湾敏捷大师...

2067
来自专栏腾讯游戏云的专栏

如何做好游戏内实时语音体验

本文即针对移动游戏环境下实时语音所面对的挑战,介绍一些语音预处理、流媒体协议等通用的解决方案。

4.1K41
来自专栏镁客网

谷歌,你调皮了!

因AI的加入,学术研究变得不再枯燥,甚至正以一种“调皮”的姿态获得了用户更多的宽容。

1303
来自专栏大数据文摘

业界 | 别跟风了!你的公司根本不需要数据科学家

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决...

750
来自专栏量子位

挑动AI斗AI,Google发起一场伟大的试验,结果……

量子位 | 舒石 发自 LZYY ? 未来是我们的,也是你们的,但归根结底可能是AI的。 从简单常规的交通灯,到复杂如国家经济体系,也许不需要多少年之后,人类...

2825
来自专栏PPV课数据科学社区

13条“不正常”数据,世界不是你想的那样…

点击上方 “蓝色字” 可关注我们! 1. 在刷朋友圈时间上,“60前”平均花费时间的最小值为47分钟,“90后”为42分钟。 ? 各年龄组平均刷朋友圈时间最...

3497

扫码关注云+社区