专栏首页arxiv.org翻译专栏具有语言偏差的传感器,用于端到端普通话-英语语码转换语音识别(CS SD)
原创

具有语言偏差的传感器,用于端到端普通话-英语语码转换语音识别(CS SD)

近年来,语言识别信息被用于提高端到端码转换语音识别的性能。然而,以往的工作都是使用额外的语言识别(LID)模型作为辅助模块,这导致了系统的复杂性。在这项工作中,我们提出了一个改进的带有语言偏差的递归神经网络传感器(RNN-T)模型来缓解这个问题。我们使用语言身份来偏见模型来预测CS点。这促进了该模型直接从转录中学习语言身份信息,不需要额外的LID模型。在汉英语料库SEAME上对该方法进行了评价。与我们的RNN-T基线相比,该方法可以在两个测试集上分别实现16.2%和12.9%的相对误差降低。

原文题目:Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition

原文:Recently, language identity information has been utilized to improve the performance of end-to-end code-switching (CS) speech recognition. However, previous works use an additional language identification (LID) model as an auxiliary module, which causes the system complex. In this work, we propose an improved recurrent neural network transducer (RNN-T) model with language bias to alleviate the problem. We use the language identities to bias the model to predict the CS points. This promotes the model to learn the language identity information directly from transcription, and no additional LID model is needed. We evaluate the approach on a Mandarin-English CS corpus SEAME. Compared to our RNN-T baseline, the proposed method can achieve 16.2% and 12.9% relative error reduction on two test sets, respectively.

原文作者:Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai 原文地址:http://cn.arxiv.org/abs/2002.08126

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 百度ICML论文:如何用一种算法同时解决中英两种语言的语音识别需求

    论文作者:Dario Amodei , Rishita Anubhai , Eric Battenberg , Carl Case , Jared Casper...

    AI科技评论
  • 金融/语音/音频处理学术速递[10.18]

    【1】 Credit Union Regulations' Mysterious Hold on Thrifts and Community Banks 标题:...

    公众号-arXiv每日学术速递
  • 金融/语音/音频处理学术速递[12.21]

    【1】 Rainbow Options under Bayesian MS-VAR Process 标题:贝叶斯MS-VAR过程下的彩虹期权 链接:https:...

    公众号-arXiv每日学术速递
  • 重磅 | 从SwiftScribe说起,回顾百度在语音技术的七年积累

    人与机器的自然交互一直是人类孜孜不倦的奋斗目标。随着移动互联网时代的发展,声音与图片成为了人机交互更为自然的表达方式。作为最核心的入口,语音技术就成为了科技巨头...

    AI科技评论
  • 业界丨Microsoft Translator 重大更新,“扫一扫”就能免费体验多语言的实时翻译

    (图片来源:Cnet) 想象一下,你正在法国沙特尔教堂和来自巴西、中国的游客一同游历——然而大家都不会法语。那么你们如何听得懂解说员的讲解,又和对方轻松交谈呢?...

    AI科技评论
  • 未来十年,AI 语音识别将朝着这五个方向发展

    作者 | Migüel Jetté 编译 | bluemin 编辑 | 陈彩娴 在过去的两年中,自动语音识别(Automatic Speech Recognit...

    AI科技评论
  • 重建「巴别塔」:谷歌推出全新端到端语音翻译系统

    可能是职业习惯,《流浪地球》中有一幕让小编印象非常深刻:刘培强戴着耳机和俄罗斯宇航员交流,两人各自说着母语,然后被实时同步翻译,毫无障碍不说,甚至拉家常开玩笑都...

    机器之心
  • 科大讯飞:我们和华为基因相似,板凳能坐十年冷,如今向C端强劲发力

    这是“AI国家队”科大讯飞正在探索的新路。与互联网不同,在人工智能领域中,To C业务反而未经大范围开拓。

    新智元
  • Python在线语音识别速成案例 | 手把手快速尝鲜百度语音技术SDK包 | 机器语音

    对于语音识别初学者来说,通过简单案例快速上手,不仅能够快速了解语音识别等实际应用模式,对枯燥无味的学习中提升兴趣值也大有帮助。百度语音提供了语音识别、语音合成和...

    用户7623498
  • GitHub项目:自然语言处理领域的相关干货整理

    自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概...

    AiTechYun
  • 嵌入式端音频开发(基础篇)之2021-2022年国内主流语音识别芯片科普(1)

    蜂鸟芯片(US526U5/US527U5 )(是云知声最新一代专门为离在线远场语音交互场景设计的高性能,高集成度, 低成本的智能语音芯片,可广泛...

    心跳包
  • 扎克伯格曝光Meta的小目标:AI自动生成元宇宙,实时翻译所有语言

    机器之心报道编辑:泽南、蛋酱 它们都将成为元宇宙时代的杀手级 APP? Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的技术。首席执行官...

    机器之心
  • 扎克伯格曝光Meta的小目标:AI自动生成元宇宙,实时翻译所有语言

    来源:机器之心本文约2400字,建议阅读5分钟它们都将成为元宇宙时代的杀手级 APP? Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的...

    数据派THU
  • 业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

    选自Baidu.Research 作者:Chao Li、Ajay Kannan 和 Zhenyao Zhu 机器之心编译 参与:吴攀 对话常常涉及到多个说话人,...

    机器之心
  • 永久免费的百度语音转字幕的工具

    本文档是百度AI开放平台Linux SDK (C++)BDSpeechSDK 3.x 的用户指南。描述了在线语音识别相关接口的使用说明

    thinktothings
  • NLP被英语统治?打破成见,英语不应是「自然语言」同义词

    自然语言处理(Natural Language Processing,NLP)领域的发展取决于语言资源的存在:书面、口头或手语的数字化资源集合,通常会带有高级的...

    AI科技大本营
  • 从零开始搭建一个语音对话机器人

    最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行的语音识别算法主要是依赖于深度学...

    好好学java
  • 金融/语音/音频处理学术速递[10.19]

    【1】 Sector Volatility Prediction Performance Using GARCH Models and Artificial ...

    公众号-arXiv每日学术速递
  • 重磅 | 小米首次公开发表论文:基于注意力机制的端对端语音识别(附论文翻译)

    文/CSDN周翔 今年 3 月,雷军在两会的媒体沟通会上表示,“去年年初,小米设立了探索实验室,不久将有重磅级的人工智能产品发布。” 昨日(7 月 26 日)下...

    AI科技大本营

扫码关注腾讯云开发者

领取腾讯云代金券