动态 | 百度发布 Deep Speech 3,不同应用场景下轻松部署高精度语音识别模型

AI 科技评论按:美国时间10月31日,百度研究院发出博文,宣布发布新一代深度语音识别系统 Deep Speech 3。继2014首秀的第一代Deep Speech和被MIT科技评论评为“2016年十大突破技术之一”的 Deep Speech 2之后,百度再一次展现出自己的研究水平以及技术应用的愿景。AI 科技评论把百度研究院这篇博文编译如下。

准确的语音识别系统是许多商业应用中不可或缺的一环,比如虚拟助手接收命令、能理解用户反馈的视频评价,或者是用来提升客户服务质量。不过,目前想要构建一个水平领先的语音识别系统,要么需要从第三方数据提供商购买用户数据,要么就要从全球排名前几位的语音和语言技术机构挖人。

百度研究院的研究人员们一直都在努力开发一个语音识别系统,它不仅要有好的表现,而且系统的构建、调试、改进的时候都只需要一支语音识别入门水平、甚至完全不了解语音识别技术的团队就可以(不过他们还是需要对机器学习有深入的理解)。百度的研究人员们相信,一个高度易用的语音识别流水线可以让语音识别平民化,就像卷积神经网络带来了计算机视觉领域的革命一样。

在这个持续的努力过程中,百度首先开发出了第一代Deep Speech,这是一个概念验证性的产品,但它也表明了一个简单模型的表现就可以和当时顶尖模型的表现相媲美。随着Deep Speech 2的发布,百度表明了这样的模型对不同的语言具有良好的泛化性,并开始把它部署在许多实际应用中。

10月31日,百度的硅谷AI实验室发布了Deep Speech 3,这是下一代的语音识别模型,它进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。

论文中,百度研究院的研究员们首先对三个模型进行了实证比较:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 语音识别系统中使用的基于注意力的Seq2Seq模型,以及端到端语音识别中应用的RNN变换器。这个RNN变换器可以看作一个编码器-解码器模型,其中假设输入和输出标识之间的对应关系是局部的、单调的。这就让RNN变换器的损失比基于注意力的Seq2Seq更适合用于语音识别(尤其在互联网应用中),它去除了带有注意力的模型中用来鼓励单调性的额外剪枝。

并且,CTC需要一个外部的语言模型用来输出有意义的结果,RNN变换器就不需要这样,它可以支持一个纯粹由神经网络构成的解码器,模型的训练和测试阶段之间也不会产生错位。所以自然地,RNN变换器比CTC模型具有更好的表现,都不需要一个外部的语言模型。

Seq2Seq和RNN变换器无需外部语言模型就可以达到良好表现的状况也提出了一个挑战。语言模型对语音识别很关键,因为语言模型可以用大得多的数据集快速训练;而且语言模型可以对语音识别模型做特定的优化,让它更好地识别特定内容(用户,地理,应用等等),同时无需给每一类的内容都提供有标注的语音语料。百度的研究人员们在部署Deep Speech 2的过程中发现,这后一条特点对用于生产环境的语音识别系统来说尤其重要。

为了支持这些应用场景,百度开发了Cold Fusion,它可以在训练Seq2Seq模型的时候使用一个预训练的语言模型。百度在论文中表明,带有Cold Fusion的Seq2Seq模型可以更好地运用语言信息,带来了更好的泛化效果和更快的收敛,同时只需用不到10%的标注训练数据就可以完全迁移到一个新领域。Cold Fusion还可以在测试过程中切换不同的语言模型以便为任何内容优化。Cold Fusion能够用在Seq2Seq模型上的同时,它在RNN变换器上应当也能发挥出同样好的效果。

这样,RNN变换器的损失和利用语言模型的Cold Fusion一起构成出了语音识别的下一个前沿。百度的研究人员们也会继续探索未来,期待看到这些技术带来更大的进步。

相关论文:

  • Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收录论文): https://arxiv.org/abs/1707.07413
  • Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】Facebook全新机器翻译超越谷歌,用CNN替代RNN创世界纪录(开源)

【新智元导读】 Facebook今天发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷...

2694
来自专栏AI科技评论

学界 | 旷视、中科院在生物特征识别领域都有哪些研究成果?

中国图象图形学学会围绕「生物特征识别」这一主题,在中科院自动化所成功举办了第四期「CSIG 图像图形学科前沿讲习班」。

753
来自专栏AI科技大本营的专栏

翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程。2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给...

1144
来自专栏人工智能头条

Yann LeCun:CNN已解决CIFAR-10,目标 ImageNet

1966
来自专栏新智元

【趋势】Yoshua Bengio: 机器的梦可以让我们实现无监督学习

【新智元导读】“让机器会做梦,从某种程度上来说,是人工智能发展的一个关键技能”,Bengio在接受O‘reilly的采访时说到。在这里,“做梦”代表的是想象的能...

4187
来自专栏CDA数据分析师

入门:机器学习和数据挖掘推荐书单

有了这些书,再也不愁下了班没妹纸该咋办了。慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧! ? 《机器学习实战》:本书第一部分主要介绍机器学习基础,以及...

27310
来自专栏机器人网

机械臂的运动形式

1.直角坐标型: 臂部由三个相互正交的移动副组成。带动腕部分别沿X、Y、Z三个坐标轴的方向作直线移动。结构简单,运动位置精度高。但所占空间较大,工作范围相对较...

2887
来自专栏AI科技大本营的专栏

AI大行其道,你准备好了吗?——谨送给徘徊于转行AI的程序员

作者 | 章华燕(金桥智慧科技) 前言 近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT...

3235
来自专栏随心DevOps

如何量化并行效率?阿姆达尔来帮你

今天在《代码的未来》这本书中看到一个定律,叫:阿姆达尔定律,原来并行效率可以量化的这么漂亮,它叫 加速比,简单的讲就是提升效率的倍数,很简单就一个公式: ? 看...

2715
来自专栏AI科技评论

干货 | AI 大行其道,你准备好了吗?—谨送给徘徊于是否转行 AI 的程序员

AI 科技评论按:本文作者章华燕, 金桥智慧科技算法工程师。本文原载于个人博客,AI 科技评论获得授权转载。 前言 近年来,随着 Google 的 AlphaG...

2493

扫码关注云+社区