专栏首页arxiv.org翻译专栏端到端语音翻译与知识提炼:FBK@IWSLT2020(CS CL)
原创

端到端语音翻译与知识提炼:FBK@IWSLT2020(CS CL)

本文介绍了 FBK 参与 IWSLT 2020 离线语音翻译(ST)任务的情况。该任务评估系统将英语 TED 演讲音频翻译成德语文本的能力。测试演讲分为两个版本:一个包含已经用自动工具分割的数据,另一个是没有任何分割的原始数据。参与者可以决定是否进行自定义分段。我们使用了提供的分割。我们的系统是一个基于 Transformer 对语音数据的改编的端到端模型。它的训练过程是本文的重点,它基于:i) 转移学习 (ASR 预训练和知识提炼),ii) 数据增强 (SpecAugment,时间拉伸和合成数据),iii) 将合成数据和真实数据结合起来,标记为不同的领域,iv) 使用 CTC 损失进行多任务学习。最后,在完成词级知识提炼的训练后,我们的 ST 模型使用标签平滑交叉熵进行微调。我们最好的模型在 MuST-C En-De 测试集上获得了 29 BLEU 的成绩,与最近的论文相比,这是一个很好的结果,而在同样的数据上,用 VAD 分割的数据获得了 23.7 BLEU 的成绩,这说明需要研究解决这种特殊数据条件的方案。

原文题目:End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020

原文:This paper describes FBK's participation in the IWSLT 2020 offline speech translation (ST) task. The task evaluates systems' ability to translate English TED talks audio into German texts. The test talks are provided in two versions: one contains the data already segmented with automatic tools and the other is the raw data without any segmentation. Participants can decide whether to work on custom segmentation or not. We used the provided segmentation. Our system is an end-to-end model based on an adaptation of the Transformer for speech data. Its training process is the main focus of this paper and it is based on: i) transfer learning (ASR pretraining and knowledge distillation), ii) data augmentation (SpecAugment, time stretch and synthetic data), iii) combining synthetic and real data marked as different domains, and iv) multi-task learning using the CTC loss. Finally, after the training with word-level knowledge distillation is complete, our ST models are fine-tuned using label smoothed cross entropy. Our best model scored 29 BLEU on the MuST-C En-De test set, which is an excellent result compared to recent papers, and 23.7 BLEU on the same data segmented with VAD, showing the need for researching solutions addressing this specific data condition.

原文作者:Marco Gaido, Mattia Antonino Di Gangi, Matteo Negri, Marco Turchi

原文地址:https://arxiv.org/abs/2006.02965

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 论直接语音翻译的知识蒸馏(CS CL)

    直接语音翻译 (ST) 已被证明是一项复杂的任务,需要从子任务:自动语音识别 (ASR) 和机器翻译 (MT)中转移知识。对于机器翻译来说,知识蒸馏是知识转移最...

    谭雪儿
  • 语音翻译也能端到端?深度学习这条路有戏!

    你或许会说,语音识别和机器翻译——没错,传统的语音翻译通常采用语音识别和机器翻译级联的方式实现,对输入语音先进行语音识别得到文本结果,然后再基于文本进行机器翻译...

    新智元
  • 金融/语音/音频处理学术速递[6.25]

    【1】 Robust Decisions for Heterogeneous Agents via Certainty Equivalents 标题:基于确定性...

    公众号-arXiv每日学术速递
  • 具有自动插入标点符号的端到端ASR系统(CS CL)

    最近的自动语音识别系统正在向可以同时训练的端到端系统发展。最近提出的许多技术促成了这一趋势,包括使用 CNN 进行特征提取、使用 RNN 进行上下文捕获和声学特...

    谭雪儿
  • 宗成庆:人类语言技术展望

    摘要 机器翻译伴随着世界上第一台计算机的诞生而出现,随后成为人工智能领域最具挑战性的研究课题之一。70 多年来,以机器翻译、人机对话系统、文本自动分类、自动文摘...

    马上科普尚尚
  • 更坏的WER,但更好的BLEU?在多任务端到端语音翻译中利用单词嵌入作为中介(CS CL)

    语音翻译(ST)旨在学习从源语言中的语音到目标语言中的文本的转换。先前的工作表明,多任务学习提高了ST性能,其中识别解码器生成源语言的文本,翻译解码器根据识别解...

    刘子蔚
  • 自然语言处理学术速递[6.25]

    【1】 A Transformer-based Cross-modal Fusion Model with Adversarial Training for ...

    公众号-arXiv每日学术速递
  • 《NLP》你真的了解”自然语言处理(NLP)“吗?

    上一周,清华大学AMiner发布了《2018自然语言处理研究报告》(下载地址:https://pan.baidu.com/s/1IXuZLgGVHjfY...

    ShuYini
  • 学习技能UP:敢爱敢恨敢开口,还怕英语学不好?

    VRPinea
  • 干货!「自然语言处理(NLP)」你真的了解NLP吗?

    你真的了解NLP吗?本文主要是对当前自然语言处理领域的主要研究内容进行了梳理,共包含五个部分:NLP概述、NLP相关技术分类、NLP研究人员分布、NLP...

    ShuYini
  • 汇编基础

    ​ cup与所有内存之间:地址总线,数据总线,控制总线,每条线对应不同信息,指令与数据分开

    Dean0731
  • 投喂4万种噪声,20种语言方言实时转录,搜狗「开挂」录音笔这样炼成

    最高支持 10 米远距离拾音,可过滤 4 万余种真实噪音;可根据用户语言习惯个性化转写,语音转写准确率达 98%;还能区分不同人声,做重点标记,自动提炼摘要。

    机器之心
  • AAAI 2020 | 中科院自动化所:通过识别和翻译交互打造更优的语音翻译模型

    本文对中科院宗成庆、张家俊团队完成、被 AAAI-20 录用的口头报告论文《Synchronous Speech Recognition and Speech-...

    马上科普尚尚
  • 谷歌大脑负责人Jeff Dean:深度学习技术及趋势报告(76页PPT)

    【新智元导读】谷歌大脑负责人Jeff Dean上周在“嵌入式视觉年度峰会”上发表演讲《智能计算系统中的大规模深度学习》,结合多年应用实例,讨论在从手机到数据中心...

    新智元
  • 语音识别流程梳理

    其中,声学模型主要描述发音模型下特征的似然概率,语言模型主要描述词间的连接概率;发音词典主要是完成词和音之间的转换。 接下来,将针对语音识别流程中的各个部分...

    用户5521279
  • 腾讯叮当首次系统性展示AI能力 开放日展示实战型解决方案

    腾讯强大的智能可穿戴设备AI技术能力首度揭开神秘面纱的一角。12月26日,腾讯叮当开放日在深圳举行,这也是一直默默修炼内功的腾讯叮当AI能力首次系统性对外公开展...

    企鹅号小编
  • 非常时期,搜狗新一代“AI笔皇”问世!支持同声传译,转写准确率98%

    全副武装的川总先介绍了疫情爆发后搜狗的举措,包括第一时间捐赠了7000万元的物资和现金支援抗疫一线、全网第一个上线了确诊患者的同城查询、推出第一个用于省级疫情报...

    新智元
  • 基于云计算的 CV 移动交互应用研究(1):CV交互+云计算

    Google Translate App 以word Lens即时相机翻译黑科技与 基于云计算架构的“统计机器翻译”的强大服务后台,引爆大众关注。“CV交互+移...

    flavorfan
  • 一心二用:高性能端到端语音翻译模型同时识别声音和翻译

    自动语音翻译是指让机器完成从源语言的语音信号自动翻译生成目标语言的文本的过程,其基本设想是让计算机像人类译员一样充当持不同语言说话人之间翻译的角色。

    AI科技评论

扫码关注云+社区

领取腾讯云代金券