语音识别取得了两个里程碑进展 Mozilla发布开源语音识别模型和语音数据集

技术的进步推动了语音界面的发展,通过机器学习工具的普及,使得更多的互联网连接产品能够比以往任何时候都更能倾听和回应我们的声音。许多人将会体验到新的语音设备带来的便利。

Mozilla(缩写MF或MoFo)全称Mozilla基金会,是为支持和领导开源的Mozilla项目而设立的一个非营利组织。Mozilla对语音识别的潜力感到兴奋。他们相信这项技术能够并且将会带来一波创新产品和服务的浪潮,并且应该对所有人开放。

  • 更多信息:https://blog.mozilla.org/blog/2017/07/28/machine-learning-speech-recognition/

上个月29日,Mozilla的机器学习小组的语音识别工作取得了两个重要的里程碑进展。其中之一是Mozilla的开源语音识别模型首次发布,该模型的准确性接近人类在听同样的录音时的感知。其次,Mozilla还发布了世界上第二大公开的语音数据集,这是全球近2万名用户的贡献。

一个接近用户期望性能的开放源码的语音文本引擎 目前只有少数几家大公司的商业质量语音识别服务是可行的。这就减少了用户的选择,也减少了初创公司、研究人员甚至更大的公司的可用功能,这些公司想要为他们的产品和服务提供支持。

这就是为什么Mozilla将DeepSpeech作为一个开放源码项目。Mozilla和一群志同道合的开发人员、公司和研究人员组成的社区一起,应用了复杂的机器学习技术和各种各样的创新,在LibriSpeech的测试数据集上构建了一个语音到文本的引擎,出错率仅为6.5%。

  • DeepSpeech项目地址:https://github.com/mozilla/DeepSpeech

在发布的第一个版本中,引擎包含了Python、NodeJS和一个命令行二进制代码的预构建包,开发者可以马上使用它来进行语音识别。

构建世界上最多样化的公开语音数据集,为训练语音技术最优化 如此少的服务在商业上可用的一个原因是缺乏数据。创业公司、研究人员或任何想要建立语音技术的人都需要高质量的、转录的语音数据来训练机器学习算法。现在,他们只能访问相当有限的数据集。

为了解决这一障碍,Mozilla在今年7月启动了Common Voice项目。目标是让人们可以很容易地把他们的声音捐赠给一个公开的数据库,这样就可以建立一个语音数据集,每个人都可以用它来训练新的语音应用程序。

  • Common Voice项目:https://voice.mozilla.org/

到目前为止,Mozilla已经发布了第一批捐赠者的声音:近40万种录音,相当于500小时的演讲。任何人都可以下载这些数据。

  • 下载地址:https://voice.mozilla.org/data

Mozilla收到了来自全球范围内的2万多人提供的不同的声音。通常,现有的语音识别服务无法理解不同的口音,而且大多数情况,比起女性更善于理解男性的语音——这是语音识别服务接受训练的数据中存在的偏见结果。Mozilla希望说话者的数量和他们的不同的口音能够创造出一个全球性的代表数据集,从而带来更具包容性的技术。

为此,Mozilla开始使用英语,并且正在努力确保从2018年上半年开始,Common Voice项目能够支持多种语言的语音捐赠。最后,当经历了寻找可公开的语音数据集的挑战时,Mozilla还收集了所有其他我们所知道的大型语音收集的链接。

Mozilla认为,技术应该是开放的,所有人都可以访问,包括语音。Mozilla开发这种技术的方法是由设计开放的,他们非常欢迎更多的合作者和贡献者与之一起工作。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

下一版Win10,微软人工智能平台Windows ML要和你见面了

今日,微软在开发者日上发布了AI开发者平台。 ? 微软还提到,旗下产品都可以本地直接处理AI任务。另外Win10系统将会Visual Studio 15.7 预...

2926
来自专栏企鹅号快讯

为了丰富必应搜索结果,微软将采用人工智能技术

网络巨头微软正在做一件改善搜索并希望超过谷歌的事情——更多地采用人工智能(AI)。 ? 据CNET报道,如果你问谷歌搜索“汉米尔顿是一部好音乐剧吗?”它将会发送...

3377
来自专栏IT派

人工智能体系架构-入门人工智能必看

笔者看到网上流传一张人工智能体系图,为了方便入门人工智能的兄弟姐妹少走弯路,避免盲人摸象,笔者便针对技术入门的需要,制作了一张更加突出重点的体系架构图,希望可以...

462
来自专栏软件测试经验与教训

测试思想浅谈

以前的文,修改了一部分内容重新发一下。最近发现我的很多标记原创的文章没有经过我的授权,其他公众号转发的也不是分享模式,有点奇怪。

883
来自专栏达摩兵的技术空间

START面试原则

STAR面试法,是企业招聘面试过程中可采用的技巧。其中,“STAR”是SITUATION(背景)、TASK(任务)、ACTION(行动)和RESULT(结果)四...

673
来自专栏机器人网

新型触觉感应系统让机器人摸东西有反应了,你怎么看?

人工智能能赋予机器人思考、情绪等太多人性化的东西。卡耐基梅隆大学的研究人员用现成的材料和零件做成一套名为 Fingervision 的系统,虽然这套系统看上去不...

3164
来自专栏互联网数据官iCDO

【营销101】Facebook图谱搜索应用指南

译者:李晓艳 本文长度为5511字,预估阅读时间10分钟。 摘要:作者通过详尽的介绍,手把手教你玩转Facebook图谱搜索 ? 社交搜索很长时间以来都...

3518
来自专栏Thinks

网站分析、数据和决策(下)

现在越来越多的人关注响应式,每次面试的时候,都会问对方这个问题,你在做响应式的时候breakpoint都有哪些?为什么是这几个?答案一般是bootstrap中的...

371
来自专栏PPV课数据科学社区

【方法】电商数据分析方法:分拆,跟着用户走

在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我...

2763
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:虚拟私人助理

本期谈谈 《虚拟私人助理》相关的内容。 我们先大致看下人工智能10大细分行业的典型应用: 1、深度学习/机器学习: 预测数据模型与分析数据的软件平台; 垃圾邮件...

3466

扫描关注云+社区