前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

作者头像
机器之心
发布2018-05-08 16:08:08
1.9K0
发布2018-05-08 16:08:08
举报
文章被收录于专栏:机器之心

选自medium

作者:Ozan Çağlayan

机器之心编译

参与:蒋思源、Smith

本文总结了最近发表的论文「神经机器翻译的六大挑战(Six Challenges for Neural Machine Translation)」,并希望读者能看到神经机器翻译的不足和未来的发展方向。

  • 该论文论述的神经机器翻译(NMT)六大挑战:领域误匹配、训练数据的总量、生僻词、长句子、词对齐和束搜索(beam search)。
  • Nematus 和 Moses 都是使用 WMT 和 OPUS 数据集训练 NMT 和 SMT 系统,它们使用了 50K 子词(BPE)词汇。
  • 考虑了两个语言对:英语-西班牙语和德语-英语。

挑战一:领域误匹配(Domain Mismatch)

单词表达为不同风格时会有不同的译文和意义。

5 个不同的德语-英语 统计机器翻译(SMT)和 神经机器翻译(NMT)系统使用了不同的语料库单独训练,即 OPUS 中的法律、医疗、IT、可兰经、字幕,然后再在所有 OPUS 语料库中训练一个新系统。

绿色为 NMT,蓝色为 SMT

在对应领域中,NMT 和 SMT 系统效果差不多,但在领域外 NMT 几乎在所有案例中都要比 SMT 表现更差(如 NMT 和 SMT 在医疗训练集/法律测试集中获得 3.9 vs 10.2 BLEU)。

挑战二:训练数据的总量

增加训练数据的总量能得到更好的结果。

在全部 WMT13 (385M 词) 上的英语-西班牙语系统,我们分区以获得学习曲线。对于 SMT 来说,语言模型在每个分区的西班牙语部分中训练。我们还提供了 SMT 和大型语言模型(LM)的对比。

NMT 表现出一个更陡峭的学习曲线,其从并不好的结果开始(对于有 0.4M 词量的第一分区为 1.6 和 16.4 BLEU),比 SMT 优于 1 BLEU(24M 词量),NMT 甚至在整个数据集上要比带大型 LM 的 SMT 更优秀(31.1 / 28.4 / 30.4 BLEU分别对应于 NMT、SMT 和 SMT+BigLM)

NMT 和 SMT 学习曲线的对比是很明显的:NMT 不能在语料库少于百万级词量的情况下顺利进行训练。

挑战三:生僻词

传统观点表示 NMT 在生僻词上表现得特别差。

测试这个挑战的 NMT 和 SMT 系统在德语-英语测试集上都实现了案例敏感的(case-sensitive)34.5 BLEU(34.5 BLEU 是在 NMT,且束大小(beam size)为 1 的情况下获得的)。

NMT 系统(至少是那些使用字节对编码的系统)要比 SMT 系统在极低频词上表现得更好。字节对编码(Byte-pair encoding)有时对允许成功翻译生僻词汇是足够的,即使字节对编码并不需要在形态学边界上拆分词。

SMT 和 NMT 系统实际上都对训练语料库中单次观察到的词汇表现很差,甚至比未观察到的词还要表现差。

挑战四:长句子

注意力机制(attention mechanism)拯救了 NMT 正确翻译长序列的能力,但到底有多好?

这一部分的系统和数据与挑战二中用的是一样的,但它用来翻译基于在子词(subwords)中的原句子长度的新测试集。

挑战五:词对齐

注意力机制是合适的词对齐方法吗?

词对齐(word alignment)的概念在 SMT 和 NMT 中是非常不同的。我们对注意力向量(attention vectors/软对齐矩阵)的序列和使用 fast-align 获得的词对齐进行比较。

注意力状态(attention states)和 fast-align 对齐点除了德语-英语或多或少都有点相关性。

挑战六:束搜索

为了增大束参数(beam parameter)常常需要回报递减(diminishing returns),这些分数的增加通常预示着更大的射束。

增加束尺寸并没有持续地改善翻译质量。最优的束尺寸从 4(捷克语到英语)到大约 30(英语到罗马尼亚语)不等。质量降低的主要原因是射束越宽,翻译的长度越短。

总结

最后虽然神经机器翻译有这些困难,当我们不能否认的是它十分高效。并且神经机器翻译仍然已经克服了大量的挑战,最显著的是 NMT 在领域外和低资源条件下的翻译十分出色。

论文地址:https://arxiv.org/pdf/1706.03872.pdf

摘要:我们探索了神经机器翻译的六大挑战:领域误匹配、训练数据的总量、生僻单词、长句子、词对齐和束搜索(beam search)。我们同样展示了基于短语统计机器翻译质量的不足和改进之处。

原文链接:https://medium.com/@ozinkegliyin/six-challenges-for-neural-machine-translation-8a780ead92ab

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档