NeurIPS 2021 | 字节火山与南京大学提出：可逆神经机器翻译

AI科技评论

发布于 2022-03-03 18:11:46

5110

论文作者：郑在翔，周浩，黄书剑，陈家骏，许晶晶，李磊论文地址：https://proceedings.neurips.cc/paper/2021/file/afecc60f82be41c1b52f6705ec69e0f1-Paper.pdf论文代码：https://github.com/zhengzx-nlp/REDER

简介

众所周知，（神经）机器翻译是一个序列到序列生成任务。标准的序列到序列生成模型类似于一个单工通信通道（在单工信道中信号传递是单向的，即只能从源端（源语言）到目标端（目标语言）；与之相反，在双工信道中信号传递是双向的）。

想象一下这样一个场景：来自北京的李雷正在给上海的韩梅梅打电话。如果电话是一种单工通信，即它只接受北京这一端的语音输入，而只在上海这一端输出语音，这无疑让双方无法正常沟通，降低了双向通信的好处。显然，日常生活中电话通信具有在两端接受语音输入并产生语音输出，并在两个通信方向上传输信号的能力。类似地，这种双工通信的特性也具有利于序列生成任务如机器翻译的潜力，从而实现双工序列到序列模型这一种序列建模和生成的全新范式。

综上所述，本文将给大家介绍一种全新的机器翻译范式——可逆神经机器翻译，作者来自字节跳动人工智能实验室火山翻译团队与南京大学自然语言处理实验室。这篇工作从提高机器翻译模型对平行语料中的双向学习信号的利用出发，基于翻译的对称性和可逆性，将其视作一个双工通信信道，从而提出了一种可逆神经翻译模型，该模型可以同时建模一对对称方向的翻译任务。

研究背景和动机

基于神经网络的序列到序列学习 (sequence-to-sequence learning，seq2seq) 已经被广泛用于自然语言处理的各种应用中，因为这类网络设计可以很好地匹配许多下游任务（如本文所研究的机器翻译），从而建模数据信号从源端映射到目标端的任务过程。

序列到序列任务通常是对称的。也就是说，给定包含源域和目标域的平行语料时，我们天然能得到两个方向的学习信号，即一个正向的任务以及一个反向的任务，这两个方向的任务是可逆的，如图1所示。

图 1：序列到序列任务的对称性和可逆性。以机器翻译为例

当前的问题：然而当前的序列到序列模型通常只能学习一个方向的学习信号。一个典型的序列到序列神经网络如 Transformer ，通常采用编码器-解码器框架。如图2所示，它包括一个编码器读取源端输入并获得对应的网络表示，以及一个解码器基于编码后的源端表示产生目标端输出。

也就是说，它把双向信号分成两个单向信号，并为每个方向学习一个单独的模型。如果从通信的角度来看，目前的序列到序列学习可以被视作单工通信 (simplex communication)，如图 2 所示。

图 2：当前的序列到序列模型可被视作单工通信信道

因此，给定平行数据时，虽然我们可以天然得到双向的监督信号，但是由于我们的模型往往只能学习其中一个的方向，这就导致了

没有充分利用宝贵的平行语料中所蕴含的双向监督信息
忽略了两个任务方向之间所具有的高度关联性。

本工作的动机：考虑到当前序列到序列学习因其单工的工作方式所导致的上述问题，为了能更加充分地利用平行数据中的双向监督信号，我们认为，序列到序列学习的过程应该以一个双工 (duplex) 的方式，即其神经网络可以同时学习双向的学习信号以及建模双向的任务。

本文的解决方案：因此，本文提出了双工序列到序列学习（duplex sequence-to-sequence learning，如图3所示），并将其应用在了机器翻译上，从而首次实现了可逆机器翻译 (reversible machine translation)

图 3：本工作提出的双工序列到序列学习

解决方案：双工序列到序列学习与可逆机器翻译

我们首先提出了双工神经网络以及可逆机器翻译的概念和定义，最后介绍我们具体的实现方案 REDER 的建模及学习。

双工序列到序列神经网络

给定源领域和目标领域，一个序列到序列神经网络，令其参数为，若其是双工的，则其满足如下条件：

1.正如双工通信信道一样，这个网络有两端，一个源端和一个目标端；其每一端都分别可以读入和输出序列（而普通的序列到序列神经网络则只能由源端读入序列而由目标端输出序列）。

2.这个网络可以同时建模正向的任务和反向的任务：

并且满足可逆性 (reversiblity)，即：

3.由于其是可逆的，这个网络同时还应该满足循环一致性 (cycle consistency)，即：

可逆机器翻译

当我们把上述所定义的双工序列到序列神经网络应用到机器翻译中时，我们就可以得到一个新的机器翻译范式：可逆机器翻译，其可以同时建模正向和反向的翻译，其工作方式如下：

正向翻译（forward translation）：

反向翻译（reverse translation）：

其中，反向翻译由直接反转该网络的源端和目标端来完成。

这样一个可以以可逆的方式建模双向翻译的可逆机器翻译，从概念看上去很美好，但是其具体的实现存在许多困难：

该神经网络需要具有可逆性 (reversibility)。我们需要从该神经网络本身直接得到它在计算上的逆函数，而通常的神经网络通常是不可逆的。
正反向任务计算具有一致性 (homogeneity)。通常序列到序列模型所采用的编码器-解码器模型中区分了对编码器和解码器的建模，而正因这样结构上的区分导致了两种不一致性：1）解码器必须等待编码器的编码结果才能运行，因此其无法建模从目标端到源端的计算过程；2）编码过程是非自回归的，而解码过程是自回归的。

REDER：可逆双工 Transformer（Reversible Duplex Transformer）

针对上述两个问题，我们提出了对应的建模方案，即 REDER（可逆双工 Transformer，REversible Duplex TransformER）。如图4所示。

图 4：REDER 的整体模型结构示意

针对可逆性，我们提出了采用基于 RevNet [1] 方式的可逆 Transformer layer，其可以在保证该模块具有与通常的 Transformer layer 一致的建模能力的前提下，保证其输入与输出之间具有可逆性，即其正反向的计算分别如图 5 所示：

图 5：REDER 对可逆性的建模示意

针对正反向一致性，我们在建模上不再区分编码器和解码器，而是直接以对称的方式堆叠多层上述的可逆 Transformer layer，如图 6 所示：

图 6：REDER 对正反向一致性的建模示意

并且，我们使用了完全非自回归的序列建模方式，使得编码和解码过程都同样是非自回归的：

模型学习

变长序列建模 (Modeling Variable-length input/output)：由于 REDER 不再显式地区分编码器和解码器，这导致了其只能生成的输出序列长度与输入序列长度必须相同，从而无法对变长的序列到序列任务进行建模。为此，我们使用了 CTC（Connectionist Temporal Classification [2]）来解决这个问题。

层间正反向一致性 (layer-wise forward-backward agreement)：给定和其对应的，由于REDER 是一个完全可逆的模型，因此，如果我们反向运行模型读入，就可以得到其对应的隐层表示（图7 绿色 H），而这些隐层表示是可以完全还原出的"理想”表示。因此，我们希望正向的层间表示（图7红色H）应该尽可能地接近这些对应的“理想”表示。

图 7：REDER 中的层间正反向一致性示意

循环一致性（cycle consistency）：在翻译中，和其译文具有语义一致性。因此，通过模型预测出的如果是一个质量好的翻译，它应当可以通过反向模型重构出其原文，如图 8 所示：

图 8：REDER 中的循环一致性示意

给定平行数据，REDER 最终的学习目标为结合上述的优化目标同时学习双向的翻译任务，即：

实验

实验设置：我们在 WMT14 英语、德语，以及 WMT16 英语罗马尼亚语数据集上进行了实验。注意到，由于建模需要，REDER 是一个非自回归模型，所以我们使用了非自回归模型常用的知识蒸馏 (knowledge distillation，KD) 来帮助模型训练，也会主要和目前最好的非自回归模型进行比较。此外，在解码方式上，由于 REDER 使用了 CTC 作为序列建模的优化目标，所以我们可以分别使用通常非自回归模型的并行解码 (greedy search)，以及基于 CTC 的 beam search 进行解码。

主要实验结果

图 9：主要实验结果

主要实验结果如图9所示。通过上图我们可以看出：

给定相同的平行数据，同时学习双向的翻译任务可以让 REDER 达到比只学单向翻译任务更好的性能（第14行 vs 第12行）。
给定相同的平行数据，双工学习让 REDER 的性能能够基本接近或超过当前最强的非自回归机器翻译模型，如 GLAT [Qian+21] 和 GLAT+CTC [4]（第14 行 vs 第8、9、10 行）；此外，REDER 还能极大地减小与通常的自回归模型的差距，并享有非自回归模型带来的并行生成的速度优势（第14 行 vs 第 1 行）。
通过双工学习，REDER 可以获得比基于多任务学习的自回归模型更好的效果（第 14 行 vs 第 2 行）；同时，在只使用双语数据的前提下，REDER 也能在只需要一半的模型参数的情况下，获得与使用 back-translation 的自回归模型相近的效果（第 14 行 vs 第 3 行）。

消融分析

图 10：消融分析实验

如图 10 所示，我们对模型的各个组成部分进行了消融分析实验。我们发现：

知识蒸馏和 CTC 对于训练 REDER 这样的非自回归模型非常重要；
双工学习可以帮助 REDER 利用双向学习信号，从而获得更好的性能；
基于 REDER 的模型可逆性和引入的辅助学习目标都可以进一步提高 REDER 的性能。

关于重构实验的样例分析

图 11：重构实验样例

由于REDER 是一个可逆的模型，根据定义，它应该可以尽可能地将输出忠实地还原成输入，从而说明其确实建模了我们想要的可逆性质。如图 11 所示，我们还展示了一个关于 REDER 可逆性质的样例。我们看到，REDER 可以基本上将其正向模型的预测通过自身的反向模型逆向重构回输入。

主要结果

总结

本文的动机和目标是为了解决当前以单工方式工作的序列到序列神经网络模型忽略了两个任务方向之间所具有的高度关联性，从而导致不能显式地、充分地利用平行数据中的天然存在的双向信号的问题。

基于此，本文提出了双工序列到序列学习（duplex sequence-to-sequence learning），并将其应用于机器翻译上从而得到一种全新范式，可逆机器翻译，来解决上述问题，并设计了 REDER 模型（可逆双工 Transformer，REversible Duplex TransformER）作为这些概念的一种实现。

我们在通用的机器翻译数据集上进行的实验验证了 REDER 与当前先进的基线系统相比都取得了接近或更好的性能。值得一提的是，本文所提出的 REDER 模型亦是可逆机器翻译这一个概念的首次成功实践，开启了可逆机器翻译这一新的神经机器翻译范式，拓展了相关研究领域。

参考文献[1] Aidan N. Gomez, Mengye Ren, Raquel Urtasun, Roger B. Grosse. 2017. The Reversible Residual Network: Backpropagation Without Storing Activations. In NeurIPS.[2] Graves, A., Fernandez, S., Gomez, F. J., and Schmidhuber, J. 2006. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In ICML.[3] Lihua Qian, Hao Zhou, Yu Bao, Mingxuan Wang, Lin Qiu, Weinan Zhang, Yong Yu, and Lei Li. 2021. Glancing transformer for non-autoregressive neural machine translation. In ACL.[4] Jiatao Gu and Xiang Kong. 2021. Fully non-autoregressive neural machine translation: Tricks of the trade. Findings of ACL.

推荐阅读

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09