原标题:资源 | Mozilla开源语音识别模型和世界第二大语音数据集
选自Mozilla
机器之心编译
参与:刘晓坤
Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。
开源语音识别模型:https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/
公开语音数据集:https://medium.com/mozilla-open-innovation/sharing-our-common-
DeepSpeech:一个开源的语音到文本的转换引擎,可以达到用户期待的高性能
目前市场上只有少量可用的商业性质的语音识别服务,且被少数几个大公司占据。这限制了初创公司、研究者,甚至那些希望在产品和服务中引入语音功能的大型公司的用户选择和可选特性。
这也是 Mozilla 启动并将 DeepSpeech 作为开源项目的初衷。和一群志同道合的开发者、公司和研究者一起,该公司通过应用复杂的机器学习技术,并开发多项新技术建立了一个语音到文本的转换引擎,它在 LibrSpeech 的 test-clean 数据集上仅有 6.5% 的词错率。
DeepSpeech 项目链接:https://github.com/mozilla/DeepSpeech
Mozilla 首次发布的 DeepSpeech 产品中包括了预构建的 Python 包、NodeJS 包和一个命令行二进制,从而使开发者可以立刻使用并进行语音识别实验。
Common Voice:建立世界上种类最多的公开语音数据集,以及开发最优化的语音训练技术