【重磅】Facebook全新机器翻译超越谷歌，用CNN替代RNN创世界纪录（开源）

新智元

发布于 2018-03-28 14:56:49

8490

发布于 2018-03-28 14:56:49

文章被收录于专栏：新智元

【新智元导读】 Facebook今天发布了一项新的机器翻译技术，使用CNN技术而非传统的RNN，在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷歌机器翻译，并且翻译速度上快了9倍。Facebook称，创下新的世界纪录。目前，这一技术已经开源。

开源地址：https://github.com/facebookresearch/fairseq

论文地址：https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf

Facebook的使命是让世界更开放、连接全世界，所以，语言的翻译对他们来说至关重要，这一技术能让每一个人都能用自己喜欢的语言来浏览帖子或视频。

今天，Facebook AI 研究（FAIR）团队发布了一项使用创新性的、基于卷积神经网络的方法来进行语言翻译的最新成果。Facebook 称，该研究取得了截止目前最高准确度，并且速度是基于循环神经网络(RNN)系统的9倍（谷歌的机器翻译系统使用的就是这一技术）。

此外，FAIR 所推出的序列建模工具包（ fairseq）的源代码和训练好的系统已经在Github上开源，感兴趣的研究者可以基于此定制用于翻译、文本摘要和其他任务的模型。

为什么是卷积神经网络（CNN）？

几十年前，Yann LeCun 对CNN 进行了开创性的发展，自那以后，CNN在许多机器学习领域，比如图像的处理上获得了巨大的成功。但是，循环神经网络一直都是文本类应用的常用的技术，并且，由于其极高的准度，它也成为了语言翻译的首选。

虽然在语言翻译的任务中，从历史上看，RNN 的表现都要优于CNN。但是，这一模型的设计有其固有的缺陷。如果你去观察它们是如何处理信息的，你就能理解这种缺陷。计算机是通过阅读一种语言中国的一个句子然后预测出另一种语言中带有相同含义的一系列词语，来进行文本的翻译。

RNN 遵循一种严格的“从左至右”或者“从右至左”的顺序，每次处理一个单词。这与现代的、由高并行的GPU硬件支撑的机器学习匹配起来并不那么自然。

具体说来，计算本身不能够被完全的并行（parallelized），因为每一个单词必须等到神经网络处理完前一个单词才能被处理。作为对比，CNN 能够同时处理所有的元素，完全利用GPU 并行计算的优势。进而，CNN在计算上的效率也会更高。CNN 的另一个优势是，信息的处理是分层次的（ hierarchically），这能让它更容易地捕捉到数据中的复杂关系。

在此前的研究中，把CNN用于翻译，性能上一直都没能超越RNN。但是，由于CNN 在架构上的潜力，FAIR 开始了一系列相关研究，开发出一系列用于翻译的模型，展示了CNN在翻译上的强大性能。CNN在计算上的效率优势也有潜力被扩展到翻译上，覆盖世界上6500种语言。

最高性能和创纪录的速度

Facebook 在官方博客中称，他们的技术在机器翻译峰会（WMT）所提供的公共基准数据集上，相比RNNs2，取得了新的最高水准。特别是，基于CNN 的模型准确度也超越了被用于评判机器翻译准确度的业界广泛认可的数据集WMT2014 英语-法语翻译任务中的历史记录 1.5 BLEU。在 WMT 2014 英语-德语的翻译中，提升是0.4 BLEU，WMT 2016英语-罗马尼亚语，提升到1.8BLEU。

基于神经网络的机器翻译技术要用于实践，其中的一个考虑的要素是，在我们把一句话输入系统以后，需要花多长时间，才能获得相应的翻译。 FAIR 的 CNN 模型在计算上是非常高效的，比企鹅比最强的RNN系统要快9倍。有很多的研究一直的着眼于如何通过量化权重或者精馏（distillation）的来提升速度，这些方法同样也能被用到CNN的模型中，来提升速度，甚至还能提升更多。这意味着，CNN 有着巨大的潜力。

使用多跳（muti-hop）注意力（attention）和门来获得更好的翻译

Facebook 架构的一个显着组成部分是多跳注意力。注意力机制类似于一个人在翻译句子时会分解句子的方式：神经网络会在句子上重复地“回顾”，以选择下一步将会翻译哪个词，而不是仅仅看一次句子，然后写下完整的翻译而不回头看。这跟人的翻译过程很像，我们通常会在翻译中偶尔回顾前面出现的具体关键词。多跳注意力是这种机制的增强版本，它允许网络进行多次这样的“回顾”，以产生更好的翻译。这些“回顾”也取决于彼此。例如，第一次“回顾”可以集中在一个动词上，而第二个“回顾”则是关联的辅助动词。

在下图中，我们显示系统何时读取法语短语（编码），然后输出英文翻译（解码）。他们首先运行编码器，使用CNN为每个法语单词创建一个向量，同时进行计算。接下来，解码器CNN产生英文单词，一次一个。在每一步，注意力都会能“回顾”法语句子，以决定哪些词语与翻译中的下一个英文单词最为相关。

在解码器中有两个所谓的层，下面的图说明了每个层中的注意力机制是如何完成的。绿线的强度表示网络对每个法语单词的重视程度。当网络被训练完成时，翻译总是可用的，英文单词的计算也可以同时进行。

系统的另一个特点是门，其控制神经网络中的信息流动。在每个神经网络中，信息流经所谓的隐藏单元。我们的门机制将控制哪些信息传递到下一个单元，以便能够产生较好的翻译。例如，当预测下一个字时，网络会考虑到迄今为止产生的翻译。门将允许它放大翻译的一个特定方面或获得更广泛的图像——这一切取决于网络在当前上下文中认为适合的内容。

未来发展

这种方法是用于机器翻译的另一种架构，为其他文本处理任务开辟了新的可能性。例如，在对话系统中，多跳注意力使得神经网络能够聚焦在谈话的重点部分，比如将谈话内容中两个相互独立的事实联系在一起，以便更好地应对复杂的问题。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-10，如有侵权请联系 cloudcommunity@tencent.com 删除

开源