谷歌最新端到端语音识别系统：词错率降至5.6％，性能提升16％！

文章来源：企鹅号 - AI讲堂

-免费加入AI技术专家社群>>

导读：谷歌大脑和Speech团队发布最新端到端自动语音识别（ASR）模型，词错率将至5.6%，相比传统的商用方法实现了16％的改进。

传统自动语音识别系统（ASR）一直被谷歌的多种语音搜索应用所使用，它由声学模型（AM）、发音模型（PM）和语言模型（LM）组成，所有这些都会经过独立训练，同时通常是由手动设计的，各个组件会在不同的数据集上进行训练。AM 提取声学特征并预测一系列子字单元（subword unit），通常是语境依赖或语境独立的音素。然后，手动设计的词典（PM）将声学模型生成的音素序列映射到单词上。最后，LM 为单词序列分配概率。独立地训练各个组件会产生额外的复杂性，最终得到的性能低于联合训练所有的组件。过去几年来出现了越来越多开发中的端到端系统尝试以单个系统的方式联合学习这些分离的组件。虽然相关文献表明这些端到端模型具有潜在价值 [2,3]，但对于这样的方法是否能提升当前最佳的传统系统的性能目前尚无定论。

谷歌最近公开了他们的最新研究：State-of-the-art Speech Recognition With Sequence-to-Sequence Models（“使用序列到序列模型的最先进的语音识别模型”）[4]。这篇论文描述了一个新的端到端模型，它的性能优于目前已商用的传统方法[1]。在谷歌的研究中，新的的端到端系统的词错率（WER）降到5.6％，相比使用传统方法的一个强大系统（词错率为6.7%），性能提高了16%。此外，这个端到端模型在任何假设重评分（ hypothesis rescoring）之前输出初始词假设，由于不包含单独的LM和PM，它的大小只有传统模型的1/18。

这个系统建立在Listen-Attend-Spell（LAS）端到端架构上，最早是由William Chan等人在Listen, Attend and Spell [2]这篇论文中提出。LAS架构由3个组件组成。分别是 listener 编码器，它与标准AM类似，接受输入语音信号x的时频表示，并使用一组神经网络层将输入映射到一个更高级的特征表示 henc。编码器的输出被传递给一个 attender，它使用henc来学习输入特征x和预测的子词单元之间的对齐，其中每个子词通常是一个字素。最后，attention模块的输出被传递给类似LM的speller（即，解码器），它产生一组假设词的概率分布。

LAS端到端模型的组件

LAS模型的所有组件都作为单一的端到端神经网络进行联合训练，而不是像传统的系统那样作为单独的模块进行训练，这使得训练更简单。

此外，由于LAS模型完全是神经网络，所以不需要外部的、手工设计的组件，例如有限状态转换器，词典或文本标准化模块。最后，与传统模型不同的是，训练端到端模型不需要从一个单独的系统中生成的决策树或时间校准引导，并且可以在给定的文本记录和相应的声学特征对下训练。

在文献[4]中，我们介绍了一系列新的结构上的改进，包括优化传递给解码器的注意力向量，以及用更长的子字单元（即字符）进行训练。此外，我们还介绍了优化训练过程的一些方法，包括使用最小词错率训练[5]。正是这些结构化和优化改进使得新模型相对传统模型得到16％的性能提升。

这项研究的另一个令人兴奋的潜在应用是多方言和多语言系统，其中优化单个神经网络的简单性使得这样的模型非常有吸引力。在这里，所有的方言/语言的数据可以组合起来训练一个网络，而不需要为每种方言/语言单独设置AM，PM和LM。我们发现，这些模型在7种英语方言[6]和9种印度语方言[7]上运作良好，表现比单独在各种语言/方言上分别训练的模型更好。

虽然结果令人瞩目，但研究人员认为目前的工作尚未完成。目前，这些模型不能实时处理语音[8,9,10]，而实时处理对于语音搜索等对延迟敏感的应用是很强的需求。另外，在现场生产的数据上评估时，这些模型仍然不够好。此外，我们的端到端模型是在22000个音频-文本对上学习的，而传统的系统通常是在大得多的语料库上训练。最后，这个新模型不能学习罕用词汇的正确拼写，例如专有名词，通常需要手动设计的PM。谷歌接下来的努力将集中在这些挑战上。

论文：State-of-the-art Speech Recognition With Sequence-to-Sequence Models

摘要：基于注意力机制的编码器-解码器架构，如 Listen、Attend 和 Spell（LAS）可以将传统自动语音识别（ASR）系统上的声学、发音和语言模型组件集成到单个神经网络中。在以前的工作中，已经证明了这样的架构在听写任务中与业内顶尖水平的 ASR 系统具有相当水平，但此前还不清楚这样的架构是否可以胜任语音搜索等更具挑战性的任务。

在本研究中，探索了多种优化和提升 LAS 模型的方法，其中的一些显著提升了系统表现。在结构上，我们证明了词块模型可以用来代替字素。引入了新型的多头注意力架构，它比常用的单头注意力架构有所提升。在优化方面，探索了同步训练、定期采样、平滑标签（label smoothing），也应用了最小误码率优化，这些方法都提升了准确度。使用一个单向 LSTM 编码器进行串流识别并展示了结果。在 12,500 小时的语音搜索任务中，发现新模型将 LAS 系统的词错率（WER）从 9.2% 降低到了 5.6%，相对于目前业内最佳系统的 6.7% 提高了 16% 的水平。

论文：https://arxiv.org/abs/1712.01769

发表于: 2017-12-172017-12-17 00:00:36
原文链接：http://kuaibao.qq.com/s/20171217A00CYG00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌最新端到端语音识别系统：词错率降至5.6％，性能提升16％！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐