动态 | 百度发布 Deep Speech 3,不同应用场景下轻松部署高精度语音识别模型

AI 科技评论按:美国时间10月31日,百度研究院发出博文,宣布发布新一代深度语音识别系统 Deep Speech 3。继2014首秀的第一代Deep Speech和被MIT科技评论评为“2016年十大突破技术之一”的 Deep Speech 2之后,百度再一次展现出自己的研究水平以及技术应用的愿景。AI 科技评论把百度研究院这篇博文编译如下。

准确的语音识别系统是许多商业应用中不可或缺的一环,比如虚拟助手接收命令、能理解用户反馈的视频评价,或者是用来提升客户服务质量。不过,目前想要构建一个水平领先的语音识别系统,要么需要从第三方数据提供商购买用户数据,要么就要从全球排名前几位的语音和语言技术机构挖人。

百度研究院的研究人员们一直都在努力开发一个语音识别系统,它不仅要有好的表现,而且系统的构建、调试、改进的时候都只需要一支语音识别入门水平、甚至完全不了解语音识别技术的团队就可以(不过他们还是需要对机器学习有深入的理解)。百度的研究人员们相信,一个高度易用的语音识别流水线可以让语音识别平民化,就像卷积神经网络带来了计算机视觉领域的革命一样。

在这个持续的努力过程中,百度首先开发出了第一代Deep Speech,这是一个概念验证性的产品,但它也表明了一个简单模型的表现就可以和当时顶尖模型的表现相媲美。随着Deep Speech 2的发布,百度表明了这样的模型对不同的语言具有良好的泛化性,并开始把它部署在许多实际应用中。

10月31日,百度的硅谷AI实验室发布了Deep Speech 3,这是下一代的语音识别模型,它进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。

论文中,百度研究院的研究员们首先对三个模型进行了实证比较:Deep Speech 2的核心CTC、其它一些 Listend-Attend-Spell 语音识别系统中使用的基于注意力的Seq2Seq模型,以及端到端语音识别中应用的RNN变换器。这个RNN变换器可以看作一个编码器-解码器模型,其中假设输入和输出标识之间的对应关系是局部的、单调的。这就让RNN变换器的损失比基于注意力的Seq2Seq更适合用于语音识别(尤其在互联网应用中),它去除了带有注意力的模型中用来鼓励单调性的额外剪枝。

并且,CTC需要一个外部的语言模型用来输出有意义的结果,RNN变换器就不需要这样,它可以支持一个纯粹由神经网络构成的解码器,模型的训练和测试阶段之间也不会产生错位。所以自然地,RNN变换器比CTC模型具有更好的表现,都不需要一个外部的语言模型。

Seq2Seq和RNN变换器无需外部语言模型就可以达到良好表现的状况也提出了一个挑战。语言模型对语音识别很关键,因为语言模型可以用大得多的数据集快速训练;而且语言模型可以对语音识别模型做特定的优化,让它更好地识别特定内容(用户,地理,应用等等),同时无需给每一类的内容都提供有标注的语音语料。百度的研究人员们在部署Deep Speech 2的过程中发现,这后一条特点对用于生产环境的语音识别系统来说尤其重要。

为了支持这些应用场景,百度开发了Cold Fusion,它可以在训练Seq2Seq模型的时候使用一个预训练的语言模型。百度在论文中表明,带有Cold Fusion的Seq2Seq模型可以更好地运用语言信息,带来了更好的泛化效果和更快的收敛,同时只需用不到10%的标注训练数据就可以完全迁移到一个新领域。Cold Fusion还可以在测试过程中切换不同的语言模型以便为任何内容优化。Cold Fusion能够用在Seq2Seq模型上的同时,它在RNN变换器上应当也能发挥出同样好的效果。

这样,RNN变换器的损失和利用语言模型的Cold Fusion一起构成出了语音识别的下一个前沿。百度的研究人员们也会继续探索未来,期待看到这些技术带来更大的进步。

相关论文:

  • Exploring Neural Transducers for End-to-End Speech Recognition(ASRU 2017收录论文): https://arxiv.org/abs/1707.07413
  • Cold Fusion: Training Seq2Seq Models Together with Language Models: https://arxiv.org/abs/1708.06426

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

2017深度学习展望

---- 作者: James Kobielus 编译: AI100 原文地址: http://www.kdnuggets.com/2016/12/ibm-...

2415
来自专栏计算机视觉战队

Deep Learning的展望

随着2017年的到来,深度学习技术也迎来了新的一年。深度学习是一门基于多层神经网络的技术,此项技术是许多颠覆性技术(如人工智能、认知计算、实时数据流分析等)的基...

3539
来自专栏人称T客

第四次产业革命:始于人工智能 | 周末长文

T客汇官网:tikehui.com 撰文 | 徐婧欣 ? 「最近十年,我们一直在建立一个移动优先(mobile-first)的世界,而接下来的十年里,我们的将转...

3446
来自专栏腾讯高校合作

【“犀牛鸟论道”特邀撰稿】自然语言处理中的知识获取问题

自然语言处理中的知识获取问题 哈尔滨工业大学社会计算与信息检索研究中心 1. 引言 随着人工智能从感知智能向认知智能升级,自然语言处理(英文为Natural L...

35210
来自专栏AI科技评论

Yann LeCun演讲图文:如何让AI学习常识,AI未来趋势又在何方 | GMIC 2018

人工智能作为一个发展中的技术,其实还在演进的过程当中,有所能为,有所不能为,因此还有很多亟待解决的问题

823
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

983
来自专栏AI科技大本营的专栏

周末漫谈 | 都说想转型机器学习,到你真的有机会吗?机器学习下一个创新点到底在哪里?

本期话题 这个周六,让我们来聊聊当前火热的机器学习,它未来的机会在哪里呢? 机器学习、计算机视觉下一步的创新点在哪里? 随着硬件的迭代,神经网络的隐藏层可以...

2959
来自专栏新智元

【谷歌升级ImageNet】大规模视觉理解竞赛WebVision冠军分享 | 新智元CVPR-17专题

【新智元导读】ImageNet 竞赛在今年正式完结。那么,图像识别未来的重点将是什么,ImageNet 竞赛之后又会出现什么呢?WebVision 竞赛被誉为接...

36813
来自专栏玉树芝兰

如何有效沟通你的机器学习结果?

他说,许多人跑模型,跑出来一个比别人都高的准确率,于是就觉得任务完成了。他自己做健康信息研究,通过各种特征判定病人是否需要住院治疗。很容易就可以构建一个模型,获...

735
来自专栏AI科技评论

机器翻译新突破,微软中英新闻翻译达人类水平

翻译没有唯一标准答案,它更像是一种艺术。 AI科技评论消息:14 日晚,微软亚洲研究院与雷德蒙研究院的研究人员宣布,其研发的机器翻译系统在通用新闻报道测试集 n...

3526

扫码关注云+社区