能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

文章来源：企鹅号 - 雷锋网

雷锋网 AI 科技评论按：近期，谷歌拓展了机器翻译系统的边界：用所有可用的数据训练一个超大规模的多语言神经机器翻译系统。这不仅是一次大胆的尝试，也更新了我们对机器翻译模型的一些认识。雷锋网 AI 科技评论把谷歌的这篇介绍博客编译如下。另外，这篇介绍博客也提到了许多相关论文，我们在文中标出的同时，也在文末提供了统一说明和打包下载，方便各位仔细阅读。

「也许语言翻译的奥妙，就在于从每种语言往下挖掘，一直挖到人类沟通的共同基础——那种真实存在但是尚未被发现的通用语言——然后从那里重新衍生出方便的具体路径。」 —— Warren Weaver, 1949

寻找新的挑战

过去几年中，得益于神经机器翻译（NMT）技术的流行，机器翻译的质量越来越高。不过神经机器翻译的成功也同时依赖于大量的有监督训练数据。所以对于只能找到很少标注数据、甚至找不到标注数据的语言要怎么处理呢？人们有一个归纳偏倚，认为「对于学习某一个语言有用的信号也能提高翻译到其它语言的质量」，这种补救方法似乎有一些潜力，也就带来了多语言神经机器翻译。

大规模多语言机器翻译

虽然不同的语言有不同的语料数量是神经机器翻译方法中的一大挑战，但这种状况同时也是研究迁移的理想环境，也就是研究训练提升了对某一种语言的翻译能力以后能否用它来提高对其他语言的翻译能力。在语言-语料分布的一端，有英语对法语、德语、西班牙语这种语料非常丰富的，很容易找到十亿级的平行语料样本，而英语对约鲁巴语、信德语、夏威夷语这种小语种的平行语料就非常缺乏，可能只有成千上万而已。

不同语言的资源数量（纵轴是 log 尺度），以及只使用各自的双语语料训练翻译模型得到的 BLEU 分数

在用所有找得到的数据（103 种语言对英语的句子对，一共超过 250 亿组）训练模型之后，谷歌的研究人员们观察到越低资源的语言就有越明显的提升，资源最低的 30 种语言的翻译质量平均提升了 5 BLEU。这种效果是此前就得到过研究、这次也在预料之中的，不过这个结果仍然让人感到欣喜，毕竟这个多语言模型中对于每种语言的具体表征容量和一个一般的双语模型是一样的。这个发现表明大规模多语言模型的泛化能力很强大，而且可以在众多不同的语言之间找到表征的相似性。

相比于用双语语料分别训练的模型，单个大规模多语言翻译模型能大大提升低资源语言的翻译质量；但高资源语言的翻译质量反而有所下降

根据表征相似性对所有 103 种语言的编码表征进行聚类的结果。图中带颜色的椭圆是语言学分类的结果 —— 和根据表征的聚类基本相符构建大规模神经网络

为了提升网络容量，谷歌的研究人员们其实使用了很多技巧，包括增加更多的层、让隐层的表征更宽。在之前的尝试更深的翻译网络的研究（论文 12）的基础上，他们使用了 GPipe 库来训练一个 128 层的 Transformer 模型，其中含有超过 60 亿个参数。增加模型容量大幅提升了模型在所有语言中的表现，平均提升了 5 BLEU。他们还探究了非常深的网络的其它特性，比如网络深度宽度间的取舍、网络的可训练性，甚至尝试了进一步把网络拓展到超过 1500 层、含有超过 840 亿个参数。

提升模型容量的方法也并不只有直接增加深度一种，还有一种很有意义的补充方案是探索新的架构，以便更好地利用这个问题的「多任务」这个特点。谷歌的研究人员们尝试了把 Transformer 架构本来的正常的前馈层替换成多个专家模型混合组成的稀疏门（论文 13），也大幅提高了模型的容量、成功训练了这样的模型，模型含有的参数也超过了 500 亿；这都让模型的翻译质量继续得到全方面的提高。

用容量更大的模型，配合增加更多语料，高资源语言的翻译质量也能和低资源语言一样继续得到提升把 M4 模型变得实用

为不同的语言、不同的任务或者迁移任务分别训练不同的大规模模型本来就是很消耗资源、很低效率的一件事，这次谷歌的多语言机器翻译模型更是一个强力的模型，可以作为向单个语言、单个任务迁移的基础。谷歌也设计了一些方法（论文 9）提高 M4 模型的实用性，比如可以通过容量可调的层让 M4 模型可以适应到针对某个语言或者某个人物，而不需要改变原有的模型。

下一步迈向哪里？

有语言学家估计，目前全世界存在的大约 7000 种语言中，在 2100 年以前就会消失一半。多语言翻译技术能起到一定的拯救作用吗？谷歌认为 M4 模型就是在目前的基础上再多拯救 1000 种语言的一个很有希望的办法，把这样的多语言翻译模型作为基础，可以很轻松地拓展到新语言、新领域、新的下游任务上去，甚至当我们没有平行语料的时候都可以做出成果。当然了，我们面对的挑战还有不少，想要得到真正通用的多语言机器翻译模型也还需要一些跨领域的合作。不过，对于机器学习开发者和理论研究者来说，多语言机器翻译模型都是一个多任务学习、元学习、机器学习动力学研究的有趣的实验环境。我们未来还可以做得更好。

提及的论文查阅

发表于: 2019-10-162019-10-16 19:15:00
原文链接：https://kuaibao.qq.com/s/20191016A0PP0H00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐