专栏首页arxiv.org翻译专栏基于变压器模型的流式自动语音识别(CS SD)
原创

基于变压器模型的流式自动语音识别(CS SD)

基于编码器-解码器的序列-序列模型已经证明了端到端自动语音识别(ASR)的最新成果。最近的研究表明,与基于递归神经网络(RNN)的系统结构相比,基于时间上下文信息的自关注建模的transformer结构能够显著降低单词错误率(WERs)。尽管它取得了成功,但实际应用仅限于离线的ASR任务,因为编码器-解码器架构通常需要整个语音作为输入。在这项工作中,我们提出了一个基于变压器的端到端ASR系统,用于流式ASR,其中输出必须在每个口语单词后不久生成。为了实现这一目标,我们对编码器应用了定时自注意,对编码器和解码器应用了触发注意机制。我们提出的流媒体转换器架构对LibriSpeech的“干净”和“其他”测试数据的准确率分别为2.7%和7.0%,据我们所知,这是本任务中发布的最好的端到端的ASR流媒体结果。

原文题目:Streaming automatic speech recognition with the transformer model

原文:Encoder-decoder based sequence-to-sequence models have demonstrated state-of-the-art results in end-to-end automatic speech recognition (ASR). Recently, the transformer architecture, which uses self-attention to model temporal context information, has been shown to achieve significantly lower word error rates (WERs) compared to recurrent neural network (RNN) based system architectures. Despite its success, the practical usage is limited to offline ASR tasks, since encoder-decoder architectures typically require an entire speech utterance as input. In this work, we propose a transformer based end-to-end ASR system for streaming ASR, where an output must be generated shortly after each spoken word. To achieve this, we apply time-restricted self-attention for the encoder and triggered attention for the encoder-decoder attention mechanism. Our proposed streaming transformer architecture achieves 2.7% and 7.0% WER for the "clean" and "other" test data of LibriSpeech, which to our knowledge is the best published streaming end-to-end ASR result for this task.

原文作者:Niko Moritz, Takaaki Hori, Jonathan Le Roux

原文地址:https://arxiv.org/abs/2001.02674

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 循环热管的动态状态空间建模与基于模型的控制设计(CS SY)

    对于航空航天、汽车或服务器系统中电子元件的热控制,散热器通常远离热源。因此,热传导系统是有效冷却电子元件所必需的。循环热管(LHPs)就是这样的传热系统,它利用...

    用户6853689
  • 面子:人脸识别审计的伦理问题研究(CS CY )

    尽管披露有偏见的绩效是必要的,但出于好意的算法审计尝试可能会对这些措施旨在保护的人群造成伤害。在审核面部识别等生物识别系统时,这种担忧甚至更为突出。在这些系统中...

    用户6853689
  • 音频修复:重新访问和重新加权(CS SD)

    我们处理了稀疏的音频修复问题。优化方法之一是在填充的间隙内信号的能量不足。我们提出了基于稀疏性和凸优化的音频嵌入框架的改进方案,以补偿这种能量损失。新的思想是基...

    用户6853689
  • 爱奇艺PC Web NodeJS中间层实践

    爱奇艺作为中国最大的互联网视频综合门户,一直致力于给用户提供更好的使用体验及观影品质。PC主站作为爱奇艺的门户,日均覆盖用户达千万级别。随着公司业务...

    coder_koala
  • 爱奇艺 PC Web Node.js 中间层实践

    爱奇艺作为中国最大的互联网视频综合门户,一直致力于给用户提供更好的使用体验及观影品质。PC主站作为爱奇艺的门户,日均覆盖用户达千万级别。随着公司业务...

    五月君
  • ROS_Kinetic_18 使用V-Rep3.3.1和Matlab2015b(vrep_ros_bridge)续

    上一节配置的v-rep在ros kinetic中是可以看图像,并订阅主题的,但是无法发送消息让机器人动起来,

    zhangrelay
  • python语法 3.1 双重for循环

    "D:\Program Files\python-3.6.4\python.exe" "C:/Users/Administrator/Desktop/pytho...

    用户2398817
  • 在mac上搭建python环境

    首先尊重原创:http://blog.justbilt.com/2014/07/02/setup_python_on_mac/

    用户2398817
  • windows下python开发环境搭建

    1、首先访问http://www.python.org/download/去下载最新的python版本。

    用户2398817
  • 给 python 初学者的四条忠告

    https://blog.csdn.net/xufive/article/details/102709538

    JAVAandPython君

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动