动态 | 百度发布 Deep Speech 3,不同应用场景下轻松部署高精度语音识别模型

AI 科技评论按:美国时间10月31日,百度研究院发出博文,宣布发布新一代深度语音识别系统 Deep Speech 3。继2014首秀的第一代Deep Speech和被MIT科技评论评为“2016年十大突破技术之一”的 Deep Speech 2之后,百度再一次展现出自己的研究水平以及技术应用的愿景。AI 科技评论把百度研究院这篇博文编译如下。

准确的语音识别系统是许多商业应用中不可或缺的一环,比如虚拟助手接收命令、能理解用户反馈的视频评价,或者是用来提升客户服务质量。不过,目前想要构建一个水平领先的语音识别系统,要么需要从第三方数据提供商购买用户数据,要么就要从全球排名前几位的语音和语言技术机构挖人。

百度研究院的研究人员们一直都在努力开发一个语音识别系统,它不仅要有好的表现,而且系统的构建、调试、改进的时候都只需要一支语音识别入门水平、甚至完全不了解语音识别技术的团队就可以(不过他们还是需要对机器学习有深入的理解)。百度的研究人员们相信,一个高度易用的语音识别流水线可以让语音识别平民化,就像卷积神经网络带来了计算机视觉领域的革命一样。

在这个持续的努力过程中,百度首先开发出了第一代Deep Speech,这是一个概念验证性的产品,但它也表明了一个简单模型的表现就可以和当时顶尖模型的表现相媲美。随着Deep Speech 2的发布,百度表明了这样的模型对不同的语言具有良好的泛化性,并开始把它部署在许多实际应用中。

10月31日,百度的硅谷AI实验室发布了Deep Speech 3,这是下一代的语音识别模型,它进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。

论文中,百度研究院的研究员们首先对三个模型进行了实证比较:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 语音识别系统中使用的基于注意力的Seq2Seq模型,以及端到端语音识别中应用的RNN变换器。这个RNN变换器可以看作一个编码器-解码器模型,其中假设输入和输出标识之间的对应关系是局部的、单调的。这就让RNN变换器的损失比基于注意力的Seq2Seq更适合用于语音识别(尤其在互联网应用中),它去除了带有注意力的模型中用来鼓励单调性的额外剪枝。

并且,CTC需要一个外部的语言模型用来输出有意义的结果,RNN变换器就不需要这样,它可以支持一个纯粹由神经网络构成的解码器,模型的训练和测试阶段之间也不会产生错位。所以自然地,RNN变换器比CTC模型具有更好的表现,都不需要一个外部的语言模型。

Seq2Seq和RNN变换器无需外部语言模型就可以达到良好表现的状况也提出了一个挑战。语言模型对语音识别很关键,因为语言模型可以用大得多的数据集快速训练;而且语言模型可以对语音识别模型做特定的优化,让它更好地识别特定内容(用户,地理,应用等等),同时无需给每一类的内容都提供有标注的语音语料。百度的研究人员们在部署Deep Speech 2的过程中发现,这后一条特点对用于生产环境的语音识别系统来说尤其重要。

为了支持这些应用场景,百度开发了Cold Fusion,它可以在训练Seq2Seq模型的时候使用一个预训练的语言模型。百度在论文中表明,带有Cold Fusion的Seq2Seq模型可以更好地运用语言信息,带来了更好的泛化效果和更快的收敛,同时只需用不到10%的标注训练数据就可以完全迁移到一个新领域。Cold Fusion还可以在测试过程中切换不同的语言模型以便为任何内容优化。Cold Fusion能够用在Seq2Seq模型上的同时,它在RNN变换器上应当也能发挥出同样好的效果。

这样,RNN变换器的损失和利用语言模型的Cold Fusion一起构成出了语音识别的下一个前沿。百度的研究人员们也会继续探索未来,期待看到这些技术带来更大的进步。

相关论文:

  • Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收录论文): https://arxiv.org/abs/1707.07413
  • Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【趋势】Yoshua Bengio: 机器的梦可以让我们实现无监督学习

【新智元导读】“让机器会做梦,从某种程度上来说,是人工智能发展的一个关键技能”,Bengio在接受O‘reilly的采访时说到。在这里,“做梦”代表的是想象的能...

4337
来自专栏机器学习算法工程师

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员

前言   近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界。所有的互联网公司,尤其是 G...

3419
来自专栏AI科技评论

业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观...

3239
来自专栏AI科技评论

学界 | 旷视、中科院在生物特征识别领域都有哪些研究成果?

中国图象图形学学会围绕「生物特征识别」这一主题,在中科院自动化所成功举办了第四期「CSIG 图像图形学科前沿讲习班」。

1053
来自专栏机器人网

机械臂的运动形式

1.直角坐标型: 臂部由三个相互正交的移动副组成。带动腕部分别沿X、Y、Z三个坐标轴的方向作直线移动。结构简单,运动位置精度高。但所占空间较大,工作范围相对较...

3047
来自专栏数据科学与人工智能

【机器学习】机器学习和数据挖掘的推荐书单

《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic...

2648
来自专栏AI科技大本营的专栏

AI大行其道,你准备好了吗?——谨送给徘徊于转行AI的程序员

作者 | 章华燕(金桥智慧科技) 前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT...

3345
来自专栏数据科学与人工智能

【陆勤阅读】数据科学

“用数据来研究科学,科学的研究数据” “数据科学将逐渐达到与其他自然科学分庭抗礼的地位” ——作者 数据科学主要包括两个方面:用数据的方法来研究科学和用科...

21810
来自专栏AI科技大本营的专栏

重磅 | 小米首次公开发表论文:基于注意力机制的端对端语音识别(附论文翻译)

文/CSDN周翔 今年 3 月,雷军在两会的媒体沟通会上表示,“去年年初,小米设立了探索实验室,不久将有重磅级的人工智能产品发布。” 昨日(7 月 26 日)下...

4106
来自专栏AI研习社

传统程序员要不要转行到AI?看完本文思路更清晰

前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。所有的互联网公司,尤其是...

3614

扫码关注云+社区