专栏首页机器之心学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

选自medium

作者:Ozan Çağlayan

机器之心编译

参与:蒋思源、Smith

本文总结了最近发表的论文「神经机器翻译的六大挑战(Six Challenges for Neural Machine Translation)」,并希望读者能看到神经机器翻译的不足和未来的发展方向。

  • 该论文论述的神经机器翻译(NMT)六大挑战:领域误匹配、训练数据的总量、生僻词、长句子、词对齐和束搜索(beam search)。
  • Nematus 和 Moses 都是使用 WMT 和 OPUS 数据集训练 NMT 和 SMT 系统,它们使用了 50K 子词(BPE)词汇。
  • 考虑了两个语言对:英语-西班牙语和德语-英语。

挑战一:领域误匹配(Domain Mismatch)

单词表达为不同风格时会有不同的译文和意义。

5 个不同的德语-英语 统计机器翻译(SMT)和 神经机器翻译(NMT)系统使用了不同的语料库单独训练,即 OPUS 中的法律、医疗、IT、可兰经、字幕,然后再在所有 OPUS 语料库中训练一个新系统。

绿色为 NMT,蓝色为 SMT

在对应领域中,NMT 和 SMT 系统效果差不多,但在领域外 NMT 几乎在所有案例中都要比 SMT 表现更差(如 NMT 和 SMT 在医疗训练集/法律测试集中获得 3.9 vs 10.2 BLEU)。

挑战二:训练数据的总量

增加训练数据的总量能得到更好的结果。

在全部 WMT13 (385M 词) 上的英语-西班牙语系统,我们分区以获得学习曲线。对于 SMT 来说,语言模型在每个分区的西班牙语部分中训练。我们还提供了 SMT 和大型语言模型(LM)的对比。

NMT 表现出一个更陡峭的学习曲线,其从并不好的结果开始(对于有 0.4M 词量的第一分区为 1.6 和 16.4 BLEU),比 SMT 优于 1 BLEU(24M 词量),NMT 甚至在整个数据集上要比带大型 LM 的 SMT 更优秀(31.1 / 28.4 / 30.4 BLEU分别对应于 NMT、SMT 和 SMT+BigLM)

NMT 和 SMT 学习曲线的对比是很明显的:NMT 不能在语料库少于百万级词量的情况下顺利进行训练。

挑战三:生僻词

传统观点表示 NMT 在生僻词上表现得特别差。

测试这个挑战的 NMT 和 SMT 系统在德语-英语测试集上都实现了案例敏感的(case-sensitive)34.5 BLEU(34.5 BLEU 是在 NMT,且束大小(beam size)为 1 的情况下获得的)。

NMT 系统(至少是那些使用字节对编码的系统)要比 SMT 系统在极低频词上表现得更好。字节对编码(Byte-pair encoding)有时对允许成功翻译生僻词汇是足够的,即使字节对编码并不需要在形态学边界上拆分词。

SMT 和 NMT 系统实际上都对训练语料库中单次观察到的词汇表现很差,甚至比未观察到的词还要表现差。

挑战四:长句子

注意力机制(attention mechanism)拯救了 NMT 正确翻译长序列的能力,但到底有多好?

这一部分的系统和数据与挑战二中用的是一样的,但它用来翻译基于在子词(subwords)中的原句子长度的新测试集。

挑战五:词对齐

注意力机制是合适的词对齐方法吗?

词对齐(word alignment)的概念在 SMT 和 NMT 中是非常不同的。我们对注意力向量(attention vectors/软对齐矩阵)的序列和使用 fast-align 获得的词对齐进行比较。

注意力状态(attention states)和 fast-align 对齐点除了德语-英语或多或少都有点相关性。

挑战六:束搜索

为了增大束参数(beam parameter)常常需要回报递减(diminishing returns),这些分数的增加通常预示着更大的射束。

增加束尺寸并没有持续地改善翻译质量。最优的束尺寸从 4(捷克语到英语)到大约 30(英语到罗马尼亚语)不等。质量降低的主要原因是射束越宽,翻译的长度越短。

总结

最后虽然神经机器翻译有这些困难,当我们不能否认的是它十分高效。并且神经机器翻译仍然已经克服了大量的挑战,最显著的是 NMT 在领域外和低资源条件下的翻译十分出色。

论文地址:https://arxiv.org/pdf/1706.03872.pdf

摘要:我们探索了神经机器翻译的六大挑战:领域误匹配、训练数据的总量、生僻单词、长句子、词对齐和束搜索(beam search)。我们同样展示了基于短语统计机器翻译质量的不足和改进之处。

原文链接:https://medium.com/@ozinkegliyin/six-challenges-for-neural-machine-translation-8a780ead92ab

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

    机器之心
  • 资源 | 吴恩达deeplearning.ai五项课程完整笔记了解一下?

    机器之心整理 机器之心编译 参与:思源、路雪 自吴恩达发布 deeplearning.ai 课程以来,很多学习者陆续完成了所有专项课程并精心制作了课程笔记,在此...

    机器之心
  • 最强学习资料:国内多所重点大学课程攻略

    或许每个经历过大学生涯的人都会有这样的感受:曾经努力收集各种课程资料,但在修完一门课程之后却会发现遗漏了很多重点内容。每一代前辈总结出的经验也常常因为无处传承而...

    机器之心
  • Android APP专项电耗监控工具使用说明

    该工具主要用来监控app的耗电数据,方便了解自己app的电量耗费情况,以及方便跟竞品进行对比~

    厦门-安仔
  • “大黄蜂”远控挖矿木马分析与溯源

    事件背景: 近日,腾讯安全反病毒实验室发现了一类远控木马具有爆发的趋势。通过跟踪发现,此类木马不仅保留了远控的功能,而且随着虚拟货币价格的水涨船高,木马加入了挖...

    FB客服
  • 依赖管理(一):图片、字符串文件和字体在Flutter中怎么用?

    前文中,我与你介绍了Flutter的主题设置,也就是将视觉资源与视觉配置进行集中管理的机制。

    拉维
  • JavaScript的工作原理:解析、抽象语法树(AST)+ 提升编译速度5个技巧

    我们都知道运行一大段 JavaScript 代码性能会变得很糟糕。这段代码不仅需要通过网络传输,而且还需要解析、编译成字节码,最后执行。在之前的文章中,我们讨论...

    Fundebug
  • JSON 格式

    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写。同时也易于机器解析和生成。2001年由 Dou...

    bamboo
  • 把Transformer加深几倍,会怎么样?

    更深层次的模型有助于更好地表达特性;在计算机视觉以及分本分类任务上,已经有成功案例。但是在机器翻译领域,目前标准的Transformer模型,仅仅有6层。 论文...

    AI科技评论
  • JSON中不能加注释

      今天犯了一个白痴级的错误,那就是向JSON数据文件中,很多行后面添加注释(Comment,//)。   导致Node.js程序不能读取JSON文件,Serv...

    宋凯伦

扫码关注云+社区

领取腾讯云代金券