首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

FAIR新一代无监督机器翻译:模型更简洁,性能更优

选自arXiv

作者:Guillaume Lample等

机器之心编译

参与:张倩、路

近日,FAIR 研究人员提出两种机器翻译模型的变体,一种是神经模型,另一种是基于短语的模型。研究者结合了近期提出的两种无监督方法,并简化了结构和损失函数,得出的新模型性能更优,且易于训练和调参。

论文:Phrase-Based & Neural Unsupervised Machine Translation

论文链接:https://arxiv.org/pdf/1804.07755.pdf

摘要:机器翻译系统在某些语言上取得了接近人类水平的性能,但其有效性在很大程度上依赖大量双语文本,这降低了机器翻译系统在大多数语言对中的适用性。本研究探讨了如何在只有大型单语语料库的情况下进行机器翻译。 这两个模型都利用回译自动生成平行语料,回译借助相反方向运行的反向模型和在目标语言端训练的语言模型的去噪效果来实现。这些模型明显优于文献中的方法,同时更简单、具有更少的超参数。在广泛使用的 WMT'14 英法和 WMT'16 德英基准测试中,我们的模型在不使用平行语句的情况下分别获得 27.1 和 23.6 的 BLEU 值,比当前最优技术高 11 个 BLEU 点。

机器翻译(MT)是近年来自然语言处理领域成功的典范。其实际应用和作为序列转导算法测试平台的功能重新激发了人们对这一课题的兴趣。

尽管最新进展表明,使用神经网络方法的几种语言对的翻译表现已经接近人类水平(Wu et al., 2016; Hassan et al., 2018),但其他研究也显露出一些公开的难题(Koehn and Knowles, 2017; Isabelle et al., 2017; Sennrich, 2017)。现有学习算法对大型平行语料库的依赖就是其中之一。不幸的是,绝大多数语言对的平行语料很少:学习算法需要更好地利用单语数据,以扩大 MT 的应用范围。

大量文献研究了在有限的监督下使用单语数据来提升翻译性能的问题。这种有限的监督通常是以下形式:一小组平行句子(Sennrich et al., 2015a; Gulcehre et al., 2015; He et al., 2016; Gu et al., 2018; Wang et al., 2018)、使用其他相关语言的一大组平行句子(Firat et al., 2016; Johnson et al., 2016; Chen et al., 2017; Zheng et al., 2017)、双语词典(Klementiev et al., 2012; Irvine and Callison-Burch, 2014, 2016),或可比语料库(Munteanu et al., 2004; Irvine and Callison-Burch, 2013)。

相比之下,最近研究者提出了两种完全无监督的方法(Lample et al., 2018; Artetxe et al., 2018),仅依赖于每种语言的单语语料库,如 Ravi 和 Knight(2011)的开创性研究。

虽然这两项研究存在细微的技术差异,但我们发现了它们成功的几个共同因素。首先,它们使用推断的双语词典仔细完成模型的初始化。其次,它们利用强大的语言模型,通过训练序列到序列的系统(Sutskever et al., 2014; Bahdanau et al., 2015)作为去噪自编码器(Vincent et al., 2008)。第三,通过回译自动生成句对,将无监督问题转化为监督问题(Sennrich et al., 2015a)。回译过程的关键是维护两个模型,一个将源语翻译成目标语,另一个则相反。前者生成数据,用于训练后者,反之亦然。最后一个共同特性是,这些模型限制编码器产生的、在两种语言之间共享的潜在表征。将这些片段放在一起,无论输入语言是什么,编码器都会产生类似的表征。解码器既作为语言模型又作为噪声输入的翻译器进行训练,它学习与后向模型(从目标语到源语的操作)一起产生越来越好的译文。这种迭代过程在完全无监督的环境中取得了良好的结果,例如,它在 WMT'14 英法基准测试中的 BLEU 值达到了~15。

本论文提出了一种将这两种神经网络方法相结合的模型,在遵循上述原理的前提下,简化了结构和损失函数。得到的模型优于以前的方法,并且更易于训练和调整。然后,我们将相同的思路和方法应用到传统的基于短语的统计机器翻译(PBSMT)系统中(Koehn et al., 2003)。众所周知,当标注数据稀缺时,PBSMT 模型的性能优于神经模型,因为它们仅计算出现次数,而神经模型通常拟合上亿个参数来学习分布式表征,这在数据丰富时可以更好地泛化,但在数据稀缺时容易过拟合。我们改进后的 PBSMT 模型简单、易于解释、训练速度快,往往取得与 NMT 模型类似或更好的结果。我们的 NMT 模型在广泛使用的基准测试中获得了 BLEU 值增长约 10 个点的提升,PBSMT 模型获得了 BLEU 值增长约 12 个点的提升。这显著提升了无监督环境中的当前最优水平。

图 1:无监督 MT 三原则的图示。

A)两个单语数据集。标记对应于句子(详细信息请参见图例)。B)原则一:初始化。比如,这两个分布通过使用推断的双语词典执行逐词翻译而大致对齐。C)原则二:语言建模。在每个域中独立地学习语言模型,以推断数据中的结构(下面的连续曲线);它在对句子进行去噪/纠正之前充当数据驱动(如图所示,借助弹簧将曲线外的句子拉回)。D)原则三:回译。从观察到的源语句(红色实心圆)开始,我们使用当前的源语目标语模型进行翻译(虚线箭头),从而产生可能不正确的翻译(空心圆附近的蓝色十字)。从这次(反向)翻译开始,我们使用目标语源语模型(连续箭头)来重建初始语言中的句子。重建结果与初始语句的差异为训练目标语源语模型参数提供了误差信号。在相反的方向上应用相同的步骤来训练源语目标语模型。

算法 1:无监督机器翻译

算法 2:无监督 PBSMT

表 1:无监督短语表。一元分词和二元分词的法语到英语翻译示例,以及它们相应的条件似然度 P(s|t) 和 P(s|t)。

图 2:WMT'14 英法基准测试中有监督和无监督方法的对比,我们改变了有监督方法的平行句子数量。

本文为机器之心编译,转载请联系本公众号获得授权。

------------------------------------------------

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180429A0H2YW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券