专栏首页arxiv.org翻译专栏多语种机器翻译: 缩小共享和特定语言编码解码器之间的差距(CS CL)
原创

多语种机器翻译: 缩小共享和特定语言编码解码器之间的差距(CS CL)

最先进的多语种机器翻译依赖于通用的编码解码器,这需要重新训练整个系统来添加新的语言。 在本文中,我们提出了一种基于特定语言编码解码器的替代方法,从而可以更容易地通过学习新语言的相应模块扩展到新语言。 为了鼓励共同的中间语言表达,我们同时训练 N 种初始语言。 实验结果表明,该方法比通用编解码器平均性能提高3.28 bleu 点,而且在添加新语言时,不需要对其余模块进行重新训练。 总而言之,我们的工作缩小了共享编码解码器和特定语言编码解码器之间的差距,向模块化多语言机器翻译系统迈进,这种系统可以在终身学习环境中灵活扩展。

原文题目:Multilingual Machine Translation: Closing the Gap between Shared and Language-specific Encoder-Decoders

原文:State-of-the-art multilingual machine translation relies on a universal encoder-decoder, which requires retraining the entire system to add new languages. In this paper, we propose an alternative approach that is based on language-specific encoder-decoders, and can thus be more easily extended to new languages by learning their corresponding modules. So as to encourage a common interlingua representation, we simultaneously train the N initial languages. Our experiments show that the proposed approach outperforms the universal encoder-decoder by 3.28 BLEU points on average, and when adding new languages, without the need to retrain the rest of the modules. All in all, our work closes the gap between shared and language-specific encoder-decoders, advancing toward modular multilingual machine translation systems that can be flexibly extended in lifelong learning settings.

原文作者:Marta R. Costa-jussà

原文地址:https://arxiv.org/abs/2004.06575

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 阅读理解中的常识证据生成与注入(CS AI)

    人类的阅读理解不仅基于特定的语境本身,而且往往依赖于超出语境的常识。为了使机器具有常识推理能力,本文提出了一个阅读理解中的常识证据生成与注入框架CEGI。该框架...

    用户7095611
  • 句子完形填空数据集,具有高质量的考试干扰项(CS CL)

    我们介绍 SCDE,一个数据集来评估性能的计算模型通过句子预测。 SCDE是一个人造句子完形填空数据集,收集自公立学校的英语考试。 我们的任务需要一个模型,...

    用户7095611
  • 使语言模型能够填补空白(CS CL)

    我们提出了一种简单的文本填充方法,即在文档的任何位置预测文本丢失的跨距。虽然填充可以实现丰富的功能,特别是用于编写辅助工具,但更多的注意力集中在语言建模上——一...

    用户7095611
  • 第十届山东省赛L题Median(floyd传递闭包)+ poj1975 (昨晚的课程总结错了,什么就出度出度,那应该是叫讨论一个元素与其余的关系)

    Time Limit: 1 Second Memory Limit: 65536 KB

    风骨散人Chiam
  • 环境反向散射通信中断性能研究(CS)

    环境反向散射通信(AmBackComs)被认为是物联网的一种频谱和节能技术,因为它允许被动反向散射设备(BDs)将其信息调制成传统信号,例如蜂窝信号,并将它们反...

    蔡秋纯
  • JDK7并行计算框架介绍一 Fork/Join概述(官方原版-英文)

    New in the Java SE 7 release, the fork/join framework is an implementation of th...

    数据饕餮
  • CodeForces 24B F1 Champions(排序)

    B. F1 Champions time limit per test 2 seconds memory limit per test 256 me...

    ShenduCC
  • POJ-1414 Life Line (暴力搜索)

    Life Line Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 85...

    ShenduCC
  • Codeforces Round #395 (Div. 2)(A.思维,B,水)

    A. Taymyr is calling you time limit per test:1 second memory limit per test:256 ...

    Angel_Kitty
  • Codeforces Beta Round #2 A,B,C

    A. Winner time limit per test:1 second memory limit per test:64 megabytes input:...

    Angel_Kitty

扫码关注云+社区

领取腾讯云代金券