专栏首页arxiv.org翻译专栏基于协商模型的双通道端到端语音识别(CS SC)
原创

基于协商模型的双通道端到端语音识别(CS SC)

端到端(E2E)模式在自动语音识别(ASR)领域取得了长足的进步,与传统模式相比具有一定的竞争力。为了进一步提高质量,我们提出了一个双通模型,使用非流媒体听、听和拼写(LAS)模型对流式假设进行重新扫描,同时保持合理的延迟。该模型关注声学,以重新核心假设,而不是只使用第一遍文本假设的神经修正模型。在这项工作中,我们建议同时考虑声学和第一次通过假设使用审议网络。双向编码器用于从第一遍假设中提取上下文信息。在谷歌语音搜索(VS)任务中,我们提出的审议模型与LAS重取相比降低了12%的相对WER,在专有名词测试集上降低了23%。与大型传统模型相比,我们的最佳模型在计算复杂度方面比LAS模型提高了21%,审议译码器比LAS译码器更大,因此需要在第二步解码中进行更多的计算。

原文题目:Deliberation Model Based Two-Pass End-to-End Speech Recognition

原文:End-to-end (E2E) models have made rapid progress in automatic speech recognition (ASR) and perform competitively relative to conventional models. To further improve the quality, a two-pass model has been proposed to rescore streamed hypotheses using the non-streaming Listen, Attend and Spell (LAS) model while maintaining a reasonable latency. The model attends to acoustics to rescore hypotheses, as opposed to a class of neural correction models that use only first-pass text hypotheses. In this work, we propose to attend to both acoustics and first-pass hypotheses using a deliberation network. A bidirectional encoder is used to extract context information from first-pass hypotheses. The proposed deliberation model achieves 12% relative WER reduction compared to LAS rescoring in Google Voice Search (VS) tasks, and 23% reduction on a proper noun test set. Compared to a large conventional model, our best model performs 21% relatively better for VS. In terms of computational complexity, the deliberation decoder has a larger size than the LAS decoder, and hence requires more computations in second-pass decoding.

原文作者:Ke Hu, Tara N. Sainath, Ruoming Pang, Rohit Prabhavalkar

原文地址:https://arxiv.org/abs/2003.07962

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 端到端歌词识别与语音到唱歌风格的转换 (cs sd)

    Sakya Basak, Shrutina Agarwal, Sriram Ganapathy, Naoya Takahashi

    木樾233
  • 利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

    这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen撰写的。AssemblyAI使用Comet记录、可视化和了解模型开发流程。

    AI科技大本营
  • 基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

    本项目是基于PaddlePaddle的DeepSpeech 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是...

    夜雨飘零
  • 端到端语音情感识别:现实生活中应急呼叫中心数据记录的挑战(CS)

    在紧急呼叫中心,从演讲者的讲话中识别出他们的情绪是一个关键因素。用于语音情感识别的端到端深度学习系统现在取得了与传统机器学习方法相当甚至更好的结果。在本文中,为...

    用户8440711
  • 用预训练的语言模型进行端到端命名实体识别和关系提取 (CS CompLang)

    命名实体识别(NER)和关系提取(RE)是信息提取和检索(IE \&IR)中的两个重要任务。最近的工作表明,共同学习这些任务是有益的,这可以避免传播基于管道系统...

    shellmik
  • 具有语言偏差的传感器,用于端到端普通话-英语语码转换语音识别(CS SD)

    近年来,语言识别信息被用于提高端到端码转换语音识别的性能。然而,以往的工作都是使用额外的语言识别(LID)模型作为辅助模块,这导致了系统的复杂性。在这项工作中,...

    用户6853689
  • 基于 CIF 的协作解码,用于端到端上下文语音识别(computer science)

    端到端(E2E)模型在多种语音识别基准上都取得了很好的效果,并显示出成为主流的潜力。然而,统一的结构和E2E训练阻碍了在它们中注入上下文信息进行上下文偏置。虽然...

    用户8054058
  • 语音识别内容

    A1:但是你传过来的音频,必须是双通道的。是你音频文件生成好的。是一个实时音频流的概念。

    算法发
  • 基于变压器模型的流式自动语音识别(CS SD)

    基于编码器-解码器的序列-序列模型已经证明了端到端自动语音识别(ASR)的最新成果。最近的研究表明,与基于递归神经网络(RNN)的系统结构相比,基于时间上下文信...

    用户6853689
  • 具有自动插入标点符号的端到端ASR系统(CS CL)

    最近的自动语音识别系统正在向可以同时训练的端到端系统发展。最近提出的许多技术促成了这一趋势,包括使用 CNN 进行特征提取、使用 RNN 进行上下文捕获和声学特...

    谭雪儿
  • 【Manning主讲】斯坦福CS224n深度学习与NLP课程全部视频、PPT

    【新智元导读】斯坦福大学CS224n(全称:深度学习与自然语言处理)是自然语言处理领域很受欢迎的课程,由 Chris Manning 和 Richard Soc...

    新智元
  • GitHub项目:自然语言处理领域的相关干货整理

    自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概...

    AiTechYun
  • CS224n 更新 | 第十二讲 - 语音处理的端对端模型

    自然语言处理(NLP)是信息时代最重要的技术之一。理解复杂的语言话语也是人工智能的重要组成部分。 NLP 的应用无处不在,因为人与人之间大部分的沟通都需要语言:...

    AI研习社
  • 机器语音识别技术发展脉络概览 | 文末有彩蛋

    通常我们说到语音识别技术的时候,指的是整个语音对话系统,如图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本...

    用户7623498
  • 数据库系统:第四章 数据库安全性

    一些黑客(Hacker)和犯罪分子在用户存取数据库时猎取用户名和用户口令,然后假冒合法用户偷取、修改甚至破坏用户数据。数据库管理系统提供的安全措施主要包括用户身...

    Here_SDUT
  • 干货!交换机常用的光模块及光接口

    SFP:Small Form-factor Pluggabletransceiver ,小封装可插拔收发器

    用户8611941
  • LSF-SCNN:一种基于 CNN 的短文本表达模型及相似度计算的全新优化模型

    本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果。有任何问题,欢迎交流。

    全球人工智能
  • 自然语言处理学术速递[12.21]

    【1】 Leveraging Transformers for Hate Speech Detection in Conversational Code-Mi...

    公众号-arXiv每日学术速递

扫码关注腾讯云开发者

领取腾讯云代金券