Mozilla开源语音识别模型和世界第二大语音数据集

原标题:资源 | Mozilla开源语音识别模型和世界第二大语音数据集

选自Mozilla

机器之心编译

参与:刘晓坤

Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。

开源语音识别模型:https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/

公开语音数据集:https://medium.com/mozilla-open-innovation/sharing-our-common-

DeepSpeech:一个开源的语音到文本的转换引擎,可以达到用户期待的高性能

目前市场上只有少量可用的商业性质的语音识别服务,且被少数几个大公司占据。这限制了初创公司、研究者,甚至那些希望在产品和服务中引入语音功能的大型公司的用户选择和可选特性。

这也是 Mozilla 启动并将 DeepSpeech 作为开源项目的初衷。和一群志同道合的开发者、公司和研究者一起,该公司通过应用复杂的机器学习技术,并开发多项新技术建立了一个语音到文本的转换引擎,它在 LibrSpeech 的 test-clean 数据集上仅有 6.5% 的词错率。

DeepSpeech 项目链接:https://github.com/mozilla/DeepSpeech

Mozilla 首次发布的 DeepSpeech 产品中包括了预构建的 Python 包、NodeJS 包和一个命令行二进制,从而使开发者可以立刻使用并进行语音识别实验。

Common Voice:建立世界上种类最多的公开语音数据集,以及开发最优化的语音训练技术

本文来自企鹅号 - 凤凰网媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据挖掘】数据挖掘#商业智能(BI)数据分析挖掘概念

数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结,希望你喜欢。 分析型客户关系管理(Analytical CRM/aCRM): 用于...

2259
来自专栏华章科技

让推荐系统变得会“说话”——推荐理由设计实践

推荐系统对于处于信息爆炸时代的我们来说并不陌生。在日常生活中,我们使用到推荐系统提供的各种服务,在社交工具上认识志同道合的朋友,到音乐网站中欣赏自己感兴趣的音乐...

551
来自专栏数据科学与人工智能

【数据分析】数据分析中的六脉神剑

了解数据分析 1定义 · 数据分析是什么? 简单地说就是利用有限的数据通过发散的思维,利用相关关系来解释你想知道的问题。 2目的 · 数据分析干什么? 把隐藏在...

2108
来自专栏PPV课数据科学社区

工信部电信研究院大数据白皮书(2014年)【白皮书】

(一)大数据对传统数据处理技术体系提出挑战   大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务...

26812
来自专栏CSDN技术头条

【BDTC 2016】专访中兴飞流吕阿斌、郑龙:Yita,基于数据流的大数据计算引擎

在此次大会的大数据分析与生态系统论坛上,中兴飞流信息科技有限公司CTO郑龙发表了“Yita:基于数据流的大数据计算引擎”的演讲,阐述了数据流对于大数据的影响,以...

2118
来自专栏挖掘大数据

快速全面构建大数据认知体系

很多人都看过关于大数据方面的文章/书籍,但都是零散不成系统的,对自己并没有起到特别大的作用,所以本文希望能解决大家的疑惑,带大家从整体体系思路上,了解大数据产品...

2157
来自专栏灯塔大数据

如何快速全面建立自己的大数据知识体系?

作者刘永平经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设...

3815
来自专栏CSDN技术头条

如何做好大数据产品设计架构和技术策略?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构...

2278
来自专栏华章科技

高效能数据分析的七个习惯

如果你都不能向一个5岁的小孩解释清楚,那么你将很难将你的产品卖给其他人。产品数据分析的重点不是分析,别误会,你还是需要分析,但是它的故事和基于数据的推荐真的很重...

592
来自专栏QQ会员技术团队的专栏

请拿数据说质量

前面我们从被动角度发现质量改进点,今天我们聊聊主动发现,即如何建立一个产品质量度量指标?如何监控?

592

扫码关注云+社区