动态 | 百度发布 Deep Speech 3,不同应用场景下轻松部署高精度语音识别模型

AI 科技评论按:美国时间10月31日,百度研究院发出博文,宣布发布新一代深度语音识别系统 Deep Speech 3。继2014首秀的第一代Deep Speech和被MIT科技评论评为“2016年十大突破技术之一”的 Deep Speech 2之后,百度再一次展现出自己的研究水平以及技术应用的愿景。AI 科技评论把百度研究院这篇博文编译如下。

准确的语音识别系统是许多商业应用中不可或缺的一环,比如虚拟助手接收命令、能理解用户反馈的视频评价,或者是用来提升客户服务质量。不过,目前想要构建一个水平领先的语音识别系统,要么需要从第三方数据提供商购买用户数据,要么就要从全球排名前几位的语音和语言技术机构挖人。

百度研究院的研究人员们一直都在努力开发一个语音识别系统,它不仅要有好的表现,而且系统的构建、调试、改进的时候都只需要一支语音识别入门水平、甚至完全不了解语音识别技术的团队就可以(不过他们还是需要对机器学习有深入的理解)。百度的研究人员们相信,一个高度易用的语音识别流水线可以让语音识别平民化,就像卷积神经网络带来了计算机视觉领域的革命一样。

在这个持续的努力过程中,百度首先开发出了第一代Deep Speech,这是一个概念验证性的产品,但它也表明了一个简单模型的表现就可以和当时顶尖模型的表现相媲美。随着Deep Speech 2的发布,百度表明了这样的模型对不同的语言具有良好的泛化性,并开始把它部署在许多实际应用中。

10月31日,百度的硅谷AI实验室发布了Deep Speech 3,这是下一代的语音识别模型,它进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。

论文中,百度研究院的研究员们首先对三个模型进行了实证比较:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 语音识别系统中使用的基于注意力的Seq2Seq模型,以及端到端语音识别中应用的RNN变换器。这个RNN变换器可以看作一个编码器-解码器模型,其中假设输入和输出标识之间的对应关系是局部的、单调的。这就让RNN变换器的损失比基于注意力的Seq2Seq更适合用于语音识别(尤其在互联网应用中),它去除了带有注意力的模型中用来鼓励单调性的额外剪枝。

并且,CTC需要一个外部的语言模型用来输出有意义的结果,RNN变换器就不需要这样,它可以支持一个纯粹由神经网络构成的解码器,模型的训练和测试阶段之间也不会产生错位。所以自然地,RNN变换器比CTC模型具有更好的表现,都不需要一个外部的语言模型。

Seq2Seq和RNN变换器无需外部语言模型就可以达到良好表现的状况也提出了一个挑战。语言模型对语音识别很关键,因为语言模型可以用大得多的数据集快速训练;而且语言模型可以对语音识别模型做特定的优化,让它更好地识别特定内容(用户,地理,应用等等),同时无需给每一类的内容都提供有标注的语音语料。百度的研究人员们在部署Deep Speech 2的过程中发现,这后一条特点对用于生产环境的语音识别系统来说尤其重要。

为了支持这些应用场景,百度开发了Cold Fusion,它可以在训练Seq2Seq模型的时候使用一个预训练的语言模型。百度在论文中表明,带有Cold Fusion的Seq2Seq模型可以更好地运用语言信息,带来了更好的泛化效果和更快的收敛,同时只需用不到10%的标注训练数据就可以完全迁移到一个新领域。Cold Fusion还可以在测试过程中切换不同的语言模型以便为任何内容优化。Cold Fusion能够用在Seq2Seq模型上的同时,它在RNN变换器上应当也能发挥出同样好的效果。

这样,RNN变换器的损失和利用语言模型的Cold Fusion一起构成出了语音识别的下一个前沿。百度的研究人员们也会继续探索未来,期待看到这些技术带来更大的进步。

相关论文:

  • Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收录论文): https://arxiv.org/abs/1707.07413
  • Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉战队

2018年暑假最全的干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

602
来自专栏钱塘大数据

吴恩达回答:深度学习的泡沫何时会破?

有人在 Quora 上问了一个匪夷所思的问题:“深度学习的泡沫何时会破?”在短短的十几个小时内,该问题就得到了 18 个回应,而且每个回应都颇有深度。下面的内容...

3455
来自专栏新智元

AI新星 | 谷歌朱梦龙:从COCO物体检测冠军到MobileNet

【新智元导读】在谷歌研究院工作是一种怎样的体验?新智元近日专访了谷歌研究员朱梦龙,他作为谷歌团队G-RMI的核心成员,从去年9月开始一直盘踞在COCO的物体检测...

32711
来自专栏大数据文摘

我们为什么要这样联想|用哲学论证客户画像体系的复杂性

1283
来自专栏ATYUN订阅号

【业界】是什么推动了深度学习的“寒武纪大爆炸”?

准确地说,多伦多大学计算机科学家Alex Krizhevsky、Geoffrey Hinton和Ilya Sutskever都不知道他们要发布的是什么。那是20...

975
来自专栏人工智能头条

从How-Old.net看人脸识别技术的演进

1183
来自专栏机器人网

三个自动化深度学习平台比较和盘点

数据科学领域有一部分研究者和开发者已经选择学习这些新技术了,但在预测性和规范性建模的问题类型和技术方面(我们 90% 的工作就是这些),学习深度学习技术却与我们...

772
来自专栏PPV课数据科学社区

☞【PPT】数据挖掘方法及案例介绍

1、数据挖掘的引入 面对山一样高的,海一样广的数据,我们该怎么办? ? 数据挖掘中的5W问题 ❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘?...

33912
来自专栏机器之心

业界 | 人人都能用的深度学习:当前三大自动化深度学习平台简介

1724
来自专栏ATYUN订阅号

【学术】新的神经网络即将问世,它看起来很恐怖

? 这一切是怎么开始的? 生成式对抗网络进展 将典型的和经过良好研究的神经网络(如图像分类器)看作是神经网络技术的大脑左半球。考虑到这一点,很容易理解什么是生...

3477

扫描关注云+社区