学界 | FAIR新一代无监督机器翻译:模型更简洁,性能更优

选自arXiv

作者:Guillaume Lample等

机器之心编译

参与:张倩、路

近日,FAIR 研究人员提出两种机器翻译模型的变体,一种是神经模型,另一种是基于短语的模型。研究者结合了近期提出的两种无监督方法,并简化了结构和损失函数,得出的新模型性能更优,且易于训练和调参。

论文:Phrase-Based & Neural Unsupervised Machine Translation

论文链接:https://arxiv.org/pdf/1804.07755.pdf

摘要:机器翻译系统在某些语言上取得了接近人类水平的性能,但其有效性在很大程度上依赖大量双语文本,这降低了机器翻译系统在大多数语言对中的适用性。本研究探讨了如何在只有大型单语语料库的情况下进行机器翻译。 这两个模型都利用回译自动生成平行语料,回译借助相反方向运行的反向模型和在目标语言端训练的语言模型的去噪效果来实现。这些模型明显优于文献中的方法,同时更简单、具有更少的超参数。在广泛使用的 WMT'14 英法和 WMT'16 德英基准测试中,我们的模型在不使用平行语句的情况下分别获得 27.1 和 23.6 的 BLEU 值,比当前最优技术高 11 个 BLEU 点。

机器翻译(MT)是近年来自然语言处理领域成功的典范。其实际应用和作为序列转导算法测试平台的功能重新激发了人们对这一课题的兴趣。

尽管最新进展表明,使用神经网络方法的几种语言对的翻译表现已经接近人类水平(Wu et al., 2016; Hassan et al., 2018),但其他研究也显露出一些公开的难题(Koehn and Knowles, 2017; Isabelle et al., 2017; Sennrich, 2017)。现有学习算法对大型平行语料库的依赖就是其中之一。不幸的是,绝大多数语言对的平行语料很少:学习算法需要更好地利用单语数据,以扩大 MT 的应用范围。

大量文献研究了在有限的监督下使用单语数据来提升翻译性能的问题。这种有限的监督通常是以下形式:一小组平行句子(Sennrich et al., 2015a; Gulcehre et al., 2015; He et al., 2016; Gu et al., 2018; Wang et al., 2018)、使用其他相关语言的一大组平行句子(Firat et al., 2016; Johnson et al., 2016; Chen et al., 2017; Zheng et al., 2017)、双语词典(Klementiev et al., 2012; Irvine and Callison-Burch, 2014, 2016),或可比语料库(Munteanu et al., 2004; Irvine and Callison-Burch, 2013)。

相比之下,最近研究者提出了两种完全无监督的方法(Lample et al., 2018; Artetxe et al., 2018),仅依赖于每种语言的单语语料库,如 Ravi 和 Knight(2011)的开创性研究。

虽然这两项研究存在细微的技术差异,但我们发现了它们成功的几个共同因素。首先,它们使用推断的双语词典仔细完成模型的初始化。其次,它们利用强大的语言模型,通过训练序列到序列的系统(Sutskever et al., 2014; Bahdanau et al., 2015)作为去噪自编码器(Vincent et al., 2008)。第三,通过回译自动生成句对,将无监督问题转化为监督问题(Sennrich et al., 2015a)。回译过程的关键是维护两个模型,一个将源语翻译成目标语,另一个则相反。前者生成数据,用于训练后者,反之亦然。最后一个共同特性是,这些模型限制编码器产生的、在两种语言之间共享的潜在表征。将这些片段放在一起,无论输入语言是什么,编码器都会产生类似的表征。解码器既作为语言模型又作为噪声输入的翻译器进行训练,它学习与后向模型(从目标语到源语的操作)一起产生越来越好的译文。这种迭代过程在完全无监督的环境中取得了良好的结果,例如,它在 WMT'14 英法基准测试中的 BLEU 值达到了~15。

本论文提出了一种将这两种神经网络方法相结合的模型,在遵循上述原理的前提下,简化了结构和损失函数。得到的模型优于以前的方法,并且更易于训练和调整。然后,我们将相同的思路和方法应用到传统的基于短语的统计机器翻译(PBSMT)系统中(Koehn et al., 2003)。众所周知,当标注数据稀缺时,PBSMT 模型的性能优于神经模型,因为它们仅计算出现次数,而神经模型通常拟合上亿个参数来学习分布式表征,这在数据丰富时可以更好地泛化,但在数据稀缺时容易过拟合。我们改进后的 PBSMT 模型简单、易于解释、训练速度快,往往取得与 NMT 模型类似或更好的结果。我们的 NMT 模型在广泛使用的基准测试中获得了 BLEU 值增长约 10 个点的提升,PBSMT 模型获得了 BLEU 值增长约 12 个点的提升。这显著提升了无监督环境中的当前最优水平。

图 1:无监督 MT 三原则的图示。

A)两个单语数据集。标记对应于句子(详细信息请参见图例)。B)原则一:初始化。比如,这两个分布通过使用推断的双语词典执行逐词翻译而大致对齐。C)原则二:语言建模。在每个域中独立地学习语言模型,以推断数据中的结构(下面的连续曲线);它在对句子进行去噪/纠正之前充当数据驱动(如图所示,借助弹簧将曲线外的句子拉回)。D)原则三:回译。从观察到的源语句(红色实心圆)开始,我们使用当前的源语→目标语模型进行翻译(虚线箭头),从而产生可能不正确的翻译(空心圆附近的蓝色十字)。从这次(反向)翻译开始,我们使用目标语→源语模型(连续箭头)来重建初始语言中的句子。重建结果与初始语句的差异为训练目标语→源语模型参数提供了误差信号。在相反的方向上应用相同的步骤来训练源语→目标语模型。

算法 1:无监督机器翻译

算法 2:无监督 PBSMT

表 1:无监督短语表。一元分词和二元分词的法语到英语翻译示例,以及它们相应的条件似然度 P(s|t) 和 P(s|t)。

图 2:WMT'14 英法基准测试中有监督和无监督方法的对比,我们改变了有监督方法的平行句子数量。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

干货分享 | 云脑科技核心算法工程师详解时间序列(附PPT)

云脑科技机器学习训练营以讲解时间序列收尾,详细解说了时间序列的传统模型、进阶模型、神经网络模型,量子位作为合作媒体为大家带来本期干货整理。 内容简介 主讲人:徐...

2864
来自专栏AI科技评论

深度学习鼻祖Geoffrey Hinton带你入门机器学习(36页干货PPT)

雷锋网注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛顿 )是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是...

7614
来自专栏新智元

NLP重磅!谷歌、Facebook新研究:2.26亿合成数据训练神经机器翻译创最优!

机器翻译依赖于大型平行语料库,即源语和目的语中成对句子的数据集。但是,双语语料是十分有限的,而单语语料更容易获得。传统上,单语语料被用于训练语言模型,大大提高了...

1262
来自专栏数据科学与人工智能

【陆勤阅读】深度学习、自然语言处理和表征方法

简介 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。 虽然结果好,我们也必须思考……它...

30310
来自专栏企鹅号快讯

一文读懂机器学习概率图模型

来源:机器之心 本文长度为10085字,建议阅读15分钟 本文结合基础应用示例系统性的为你讲解概率图模型。 概率图模型是人工智能领域内一大主要研究方向。近日,数...

2557
来自专栏机器之心

前沿 | 通用句子语义编码器,谷歌在语义文本相似性上的探索

1826
来自专栏人工智能LeadAI

学习资料参考:从深度学习到自然语言处理

注意:本文已经更新,新版结合深度学习简介和发展历程,给出了更详尽的学习资料参考。新版链接:深度学习简介与学习资料参考(http://peteryuan.net/...

3718
来自专栏大闲人柴毛毛

动态规划法(一)——概述

什么是动态规划法 动态规划法也是用于求解最优化问题,也采用分步决策的策略,将一个大问题划分成若干个较小的同类子问题,根据子问题的解,自底向上,得出整个问题的解...

3369
来自专栏数据派THU

一文读懂机器学习概率图模型(附示例和学习资源)

来源:机器之心 本文长度为10085字,建议阅读15分钟 本文结合基础应用示例系统性的为你讲解概率图模型。 概率图模型是人工智能领域内一大主要研究方向。近日,数...

1.1K9
来自专栏深度学习自然语言处理

Bleu:此'蓝'非彼蓝

来源 像seq2seq这样的模型,输入一个序列,输出一个序列,它的评分不像文本分类那样仅仅通过label是否一样来判断算出得分。比如机器翻译,它既要考虑语义,还...

3656

扫码关注云+社区