学界 | 谷歌语音识别端到端系统单词错误率降至5.6%,较传统模型提升16%

AI 科技评论按:本文是由来自谷歌语音团队的科学家 Tara N. Sainath 和来自谷歌大脑团队的科学家 Yonghui Wu 共同撰写的,文中简单介绍了最新论文《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》的主要思想与取得的成果以及 Listen-Attend-Spell(LAS)的端到端体系结构。AI 科技评论根据原文进行了编译。

提升语音识别的端到端模型

在谷歌各式各样的语音搜索应用中,都是基于传统的自动语音识别(Automatic speech recognition, ASR)系统实现的。传统的 ASR 系统由声学模型(Acoustic model, AM)、发音模型(Pronunciation model, PM)和语言模型(Language model, LM)组成,所有这些系统都是分开单独进行训练的并且通常还针对各自不同的数据集进行了单独的手工设计[1]。声学模型采用了声学特征,用于预测一组子字单元(Subword units),它们通常是上下文无关或者上下文相关的音素。然后通过手动设计的词库(也即 PM)将由声学模型预测产生的一系列音素映射到对应的单词。最终,由语言模型将概率赋予单词序列。但是对这三个模型分开进行单独训练会增加训练的复杂度,并且独立训练的效果不如将模型联合训练的效果好。在过去的几年里,开发端到端(End-to-end)的系统越来越受到学者们的欢迎,而这些端到端系统试图将这些独立的组件作为一个单一系统进行联合训练。虽然在文献[2, 3]中这些端到端模型已经展示出了颇为惊艳的结果,但是这种端到端的方法是否可以被提升到赶上甚至超越最先进的传统方法却还仍然是一个未知数。

今天我们非常高兴能够与大家分享《State-of-the-art Speech Recognition With Sequence-to-Sequence Models》[4],它介绍了一种超越传统生产系统[1]性能的全新端到端模型。论文中展示了,我们的端到端系统取得了 5.6% 的单词错误率(Word error rate, WER),相比于强大的传统系统(6.7% WER)取得了 16% 的提升。此外,这个用于输出初始单词假设的端到端模型,由于没有独立的发音模型和语言模型,因此比传统模型小了 18 倍

我们的系统建立在 Listen-Attend-Spell(LAS) 的端到端体系结构的基础上,该体系结构最先由[2]提出。LAS 架构由三个组件构成。首先是听者编码器组件(Listener encoder component),听者编码器与标准的声学模型相类似,它采用输入语音信号 x 的时频表示,并使用一组神经网络将输入映射到更高级的特征表示 henc。然后听者编码器的输出被输入到第二个组件——参与者(Attender),参与者组件使用 henc 来学习输入特征 x 与预测的子字单元 {yn, ... y0} 之间的对应关系,其中每个子字通常是一个字素或者字片(Wordpiece)。最终,注意力模块(Attention module)的输出将被输入第三个组件——拼字者(Speller,例如,解码器),拼字者组件类似于语言模型,它将输出一组假设词语的概率分布。

LAS 端到端模型组件图

LAS 模型的所有组件都是被当做一个单一端到端神经网络模型进行联合训练,这一点与传统系统的分开训练不同,同时也让训练过程变得更加简单。此外,由于 LAS 模型完完全全采用神经网络模型,所以它不需要手动设计额外的组件(例如,有限状态转换器、词库和文本标准化模块)。最后,与传统模型不同的是,训练端到端模型不需要来自单独训练系统生成的决策树或者时间对准的引导程序,并且可以训练给定的文本副本(Text transcripts)对和相应的声学对。

在论文[4]中,我们介绍了各种新颖的改进结构,包括改进了传递给解码器的注意力向量(Attention vectors)和采用更长的子字单元(例如,字片)进行训练。此外,我们还介绍了大量的训练优化改进,包括使用最小误码率训练[5]策略。这些结构和优化上的改进正是为何我们的模型相比起传统模型能够取得 16% WER 提升的原因。

这项研究的另一项令人兴奋的潜在应用多方言(Multi-dialect)和多语言(Multi-lingual)系统,其中优化单个神经网络的简便性使得这样的模型非常具有吸引力。在这里所有方言或者语言都可以结合起来训练一个神经网络,而不需要为每种方言或者语言去单独设置声学模型、发音模型和语言模型。我们发现这些模型在 7 个英语方言[6]和 9 个印度语[7]上取得了很好的效果,并且同时还超越了在每个方言或者语言上进行单独训练的模型。

虽然我们为最终的结果感到非常高兴,但是我们的工作却还远远没有完成。当前,这些模型还不能实时处理语音[8, 9, 10],而做到实时处理这一点对于语音搜索等对延迟敏感的应用而言却是刚需。另外在采用真实生产数据进行评估时,这些模型的表现依然不够有效。此外我们的端到端模型是在 22000 个音频文本对话中进行学习的,而传统系统通常是在大型语料库上进行训练的。另外,我们提出的模型不能为罕见的词汇学习正确的拼写,例如那些由手工设计的发音模型来实现的专有名词。我们当前正在努力攻克这些挑战。

引用

[1] G. Pundak and T. N. Sainath, “Lower Frame Rate Neural Network Acoustic Models ," in Proc. Interspeech, 2016.

[2] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals, “Listen, attend and spell ,” CoRR, vol. abs/1508.01211, 2015

[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson, and N. Jaitly, “A Comparison of Sequence-to-sequence Models for Speech Recognition ,” in Proc. Interspeech, 2017.

[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski and M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models ,” submitted to ICASSP 2018.

[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu and A. Kannan, “Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models ,” submitted to ICASSP 2018.

[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu and K. Rao, “Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model” submitted to ICASSP 2018.

[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein and K. Rao, “End-to-End Multilingual Speech Recognition using Encoder-Decoder Models”, submitted to ICASSP 2018.

[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen and Z. Chen, “Improving the Performance of Online Neural Transducer Models ”, submitted to ICASSP 2018.

[9] C.C. Chiu* and C. Raffel*, “Monotonic Chunkwise Attention ,” submitted to ICLR 2018.

[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “Learning Hard Alignments with Variational Inference”, submitted to ICASSP 2018.

[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen and C.C. Chiu, “No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models ,” submitted to ICASSP 2018.

[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen and R. Prabhavalkar. “An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model,” submitted to ICASSP 2018.

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-12-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏个人分享

最大熵的Java实现

这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法...

1773
来自专栏AI研习社

简简单单,用 LSTM 创造一个写诗机器人

AI 研习社:人们已经给神经网络找到了越来越多的事情做,比如画画和写诗,微软的小冰都已经出版了一本诗集了。而其实训练一个能写诗的神经网络并不难,Automatt...

35213
来自专栏新智元

谷歌发布迄今最准确商用端到端语音识别系统,词错率将至5.6%,性能提升16%

来源:research.googleblog.com 【新智元导读】谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比...

3425
来自专栏PPV课数据科学社区

【学习】R语言与机器学习(分类算法)logistic回归

由于我们在前面已经讨论过了神经网络的分类问题,如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为:...

2884
来自专栏AI科技评论

简简单单,用 LSTM 创造一个写诗机器人

AI 科技评论按:人们已经给神经网络找到了越来越多的事情做,比如画画和写诗,微软的小冰都已经出版了一本诗集了。而其实训练一个能写诗的神经网络并不难,Automa...

3167
来自专栏从流域到海域

Word embeddings in 2017: Trends and future directions (2017年里的词嵌入:趋势和未来方向)

Word embeddings in 2017: Trends and future directions 2017年里的词嵌入:趋势和未来方向 目录: 子字...

3456
来自专栏深度学习自然语言处理

Sentiment Analysis情感分析——珍藏版

本文为Stanford Dan Jurafsky & Chris Manning: Natural Language Processing 课程笔记。

2451
来自专栏从流域到海域

2017年里的词嵌入:趋势和未来方向

原文地址:http://ruder.io/word-embeddings-2017/index.html?utm_campaign=Artificial%2BI...

4237
来自专栏深度学习入门与实践

【深度学习Deep Learning】资料大全

  最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yosh...

6689
来自专栏AI研习社

博客 | Word2Vec 学习心得

好嘛博主食言了。不过本文没什么干货,主要是前后看了大概一个星期,反复去读源码和解读文章,终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡,99% ...

1342

扫码关注云+社区

领取腾讯云代金券