机器之心(海外)原创
作者:Mos Zhang
参与:Panda
机器翻译(MT)是借机器之力「自动地将一种自然语言文本(源语言)翻译成另一种自然语言文本(目标语言)」[1]。使用机器做翻译的思想最早由 Warren Weaver 于 1949 年提出。在很长一段时间里(20 世纪 50 年代到 80 年代),机器翻译都是通过研究源语言与目标语言的语言学信息来做的,也就是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)。随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT),它的表现比 RBMT 更好,并且在 1980 年代到 2000 年代之间主宰了这一领域。1997 年,Ramon Neco 和 Mikel Forcada 提出了使用「编码器-解码器」结构做机器翻译的想法 [2]。几年之后的 2003 年,蒙特利尔大学 Yoshua Bengio 领导的一个研究团队开发了一个基于神经网络的语言模型 [3],改善了传统 SMT 模型的数据稀疏性问题。他们的研究工作为未来神经网络在机器翻译上的应用奠定了基础。
神经机器翻译的诞生
2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题 [29]。但是,「梯度爆炸/消失」问题 [28] 让 RNN 实际上难以处理长距依存(long distance dependency);因此,NMT 模型一开始的表现并不好。
用于长距问题的记忆
一年后的 2014 年,Sutskever et al. 和 Cho et al. 开发了一种名叫序列到序列(seq2seq)学习的方法,可以将 RNN 既用于编码器也用于解码器 [5][6],并且还为 NMT 引入了长短时记忆(LSTM,是一种 RNN)。在门机制(gate mechanism)的帮助下(允许在 LSTM 中删除和更新明确的记忆),「梯度爆炸/消失」问题得到了控制,从而让模型可以远远更好地获取句子中的「长距依存」。
LSTM 的引入解决了「长距离重新排序」问题,同时将 NMT 的主要难题变成了「固定长度向量(fixed-length vector)」问题:如图 1 所示,不管源句子的长度几何,这个神经网络都需要将其压缩成一个固定长度的向量,这会在解码过程中带来更大的复杂性和不确定性,尤其是当源句子很长时 [6]。
图 1:没有「注意」的原始神经机器翻译机制 [5]
注意、注意、注意
自 2014 年 Yoshua Bengio 的团队为 NMT 引入了「注意力(attention)」机制 [7] 之后,「固定长度向量」问题也开始得到解决。注意力机制最早是由 DeepMind 为图像分类提出的 [23],这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」[24]。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector)(如图 2 所示,紫色线的透明度表示权重大小)。然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。自那以后,NMT 的表现得到了显著提升,「注意力编码器-解码器网络」已经成为了 NMT 领域当前最佳的模型。
图 2:谷歌神经机器翻译(GNMT)[8] 的「注意力编码器-解码器网络」架构的机制
NMT vs. SMT
尽管 NMT 已经在特定的翻译实验上取得了惊人的成就,但研究者还想知道能否在其它任务上也实现这样的优良表现,以及 NMT 是否确实能取代 SMT。因此,Junczys-Dowmunt et al. 在「United Nations Parallel Corpus」语料库上进行了实验,该语料库包含 15 个语言对和 30 个翻译方向;而通过 BLEU 分数(一种自动评估机器翻译的方法,分数越高越好 [33])对实验结果的测定,NMT 在这所有 30 个翻译方向上都得到了与 SMT 媲美或更好的表现。此外,在 2015 年的 Workshop on Statistical Machine Translation(WMT)比赛上,来自蒙特利尔大学的这个团队使用 NMT 赢得了英语-德语翻译的第一名和德语-英语、捷克语-英语、英语-捷克语翻译的第三名 [31]。
与 SMT 相比,NMT 可以联合训练多个特征,而无需先验的领域知识,这可以实现 zero-shot 翻译 [32]。除了更高的 BLEU 分数和更好的句子结构,NMT 还有助于减少 SMT 上常见的形态学错误、句法错误和词序错误。另一方面,NMT 还有一些需要解决的问题和挑战:训练和解码过程相当慢;对同一个词的翻译风格可能不一致;在翻译结果上还存在「超出词汇表(out-of-vocabulary)」的问题;「黑箱」的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。
军备竞赛已经开始
因为 NMT 的特性及其相对于 SMT 的优势,产业界最近也开始采用 NMT 了:2016 年 9 月,谷歌大脑团队发布了一篇博客说他们已经在谷歌翻译产品的汉语-英语语言对上开始使用 NMT 替代基于短语的机器翻译(PBMT,这是一种 SMT)。他们部署的 NMT 名叫谷歌神经机器翻译(GNMT),他们也在同一时间发布了一篇论文 [9],对该模型进行了详细的解释。之后还不到一年时间(2017 年),Facebook 人工智能研究院(FAIR)就宣布了他们使用 CNN 实现 NMT 的方法,其可以实现与基于 RNN 的 NMT 近似的表现水平 [10][11],但速度却快 9 倍。作为回应,谷歌在 6 月份发布了一个完全基于注意力(attention)的 NMT 模型;这个模型既没有使用 CNN,也没有使用 RNN,而是完全基于注意力机制 [12]。
其它科技巨头也都各有动作。比如亚马逊刚在 7 月份发布了他们使用 MXNet 的 NMT 实现 [13];微软在 2016 年谈论过他们对 NMT 的应用,尽管目前还未披露进一步的技术细节 [27]。IBM Watson(机器翻译领域的老将)、英伟达(人工智能计算的领军者)和 SYSTRAN(机器翻译先驱)[35] 全都或多或少地参与到了 NMT 的开发中。在东亚地区,中国这个人工智能领域的新星正在升起,百度、网易有道、腾讯、搜狗、讯飞、阿里巴巴等许多公司甚至已经部署了 NMT。它们全都拼尽全力想在机器翻译的下一轮演进中取得竞争优势。
NMT 就是未来吗?
在高速发展和高度竞争的环境中,NMT 技术正在取得显著的进展。在最近的 ACL 2017 会议上,机器翻译类别下接收的 15 篇论文全都与神经机器翻译有关 [34]。我们可以看到 NMT 还将在许多方面得到不断完善,其中包括:
因此,我们有足够的理由相信 NMT 还将取得更大的突破,还将替代 SMT 逐渐发展成主流的机器翻译技术,并在不久的将来让全社会受益。
最后补充
为了帮你了解 NMT 的神奇之处,我们列出了一些 NMT 的开源实现,它们使用了不同的工具:
如果你有兴趣进一步了解 NMT,我们鼓励你阅读参考文献中列出的论文:[5][6][7] 是必读的核心论文,能帮你了解什么是 NMT;[9] 是 NMT 的机制和实现的全面展示。此外,在机器之心正在整理编辑的《人工智能技术报告》中,机器翻译也是一个重要篇章。
参考文献
[1] Russell, S. & Norvig, P. (1995). Artificial intelligence: a modern approach.
[2] Neco, R. P., & Forcada, M. L. (1997, June). Asynchronous translations with recurrent neural nets. In Neural Networks, 1997., International Conference on (Vol. 4, pp. 2535-2540). IEEE.
[3] Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of machine learning research, 3(Feb), 1137-1155.
[4] Kalchbrenner, N., & Blunsom, P. (2013, October). Recurrent Continuous Translation Models. In EMNLP (Vol. 3, No. 39, p. 413).
[5] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems(pp. 3104-3112).
[6] Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.
[7] Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
[8] A Neural Network for Machine Translation, at Production Scale. (2017). Research Blog. Retrieved 26 July 2017, from https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
[9] Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., … & Klingner, J. (2016). Google』s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
[10] Gehring, J., Auli, M., Grangier, D., & Dauphin, Y. N. (2016). A convolutional encoder model for neural machine translation. arXiv preprint arXiv:1611.02344.
[11] Gehring, J., Auli, M., Grangier, D., Yarats, D., & Dauphin, Y. N. (2017). Convolutional Sequence to Sequence Learning. arXiv preprint arXiv:1705.03122.
[12] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention Is All You Need. arXiv preprint arXiv:1706.03762.
[13] Train Neural Machine Translation Models with Sockeye | Amazon Web Services. (2017). Amazon Web Services. Retrieved 26 July 2017, from https://aws.amazon.com/blogs/ai/train-neural-machine-translation-models-with-sockeye/
[14] Jean, S., Cho, K., Memisevic, R., & Bengio, Y. (2014). On using very large target vocabulary for neural machine translation. arXiv preprint arXiv:1412.2007.
[15] Luong, M. T., Sutskever, I., Le, Q. V., Vinyals, O., & Zaremba, W. (2014). Addressing the rare word problem in neural machine translation. arXiv preprint arXiv:1410.8206.
[16] Sennrich, R., Haddow, B., & Birch, A. (2015). Improving neural machine translation models with monolingual data. arXiv preprint arXiv:1511.06709.
[17] Cheng, Y., Xu, W., He, Z., He, W., Wu, H., Sun, M., & Liu, Y. (2016). Semi-supervised learning for neural machine translation. arXiv preprint arXiv:1606.04596.
[18] Dong, D., Wu, H., He, W., Yu, D., & Wang, H. (2015). Multi-Task Learning for Multiple Language Translation. In ACL (1) (pp. 1723-1732).
[19] Wang, M., Lu, Z., Li, H., & Liu, Q. (2016). Memory-enhanced decoder for neural machine translation. arXiv preprint arXiv:1606.02003.
[20] Sennrich, R., & Haddow, B. (2016). Linguistic input features improve neural machine translation. arXiv preprint arXiv:1606.02892.
[21] Tu, Z., Lu, Z., Liu, Y., Liu, X., & Li, H. (2016). Modeling coverage for neural machine translation. arXiv preprint arXiv:1601.04811.
[22] Shen, S., Cheng, Y., He, Z., He, W., Wu, H., Sun, M., & Liu, Y. (2015). Minimum risk training for neural machine translation. arXiv preprint arXiv:1512.02433.
[23] Mnih, V., Heess, N., & Graves, A. (2014). Recurrent models of visual attention. In Advances in neural information processing systems (pp. 2204-2212).
[24] Dandekar, N. (2017). How does an attention mechanism work in deep learning for natural language processing?. Quora. Retrieved 26 July 2017, from https://www.quora.com/How-does-an-attention-mechanism-work-in-deep-learning-for-natural-language-processing
[25] Cohn, T., Hoang, C. D. V., Vymolova, E., Yao, K., Dyer, C., & Haffari, G. (2016). Incorporating structural alignment biases into an attentional neural translation model. arXiv preprint arXiv:1601.01085.
[26] Hitschler, J., Schamoni, S., & Riezler, S. (2016). Multimodal pivots for image caption translation. arXiv preprint arXiv:1601.03916.
[27] Microsoft Translator launching Neural Network based translations for all its speech languages. (2017). Translator. Retrieved 27 July 2017, from https://blogs.msdn.microsoft.com/translation/2016/11/15/microsoft-translator-launching-neural-network-based-translations-for-all-its-speech-languages/
[28] Pascanu, R., Mikolov, T., & Bengio, Y. (2013, February). On the difficulty of training recurrent neural networks. In International Conference on Machine Learning (pp. 1310-1318).
[29] Sudoh, K., Duh, K., Tsukada, H., Hirao, T., & Nagata, M. (2010, July). Divide and translate: improving long distance reordering in statistical machine translation. In Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR (pp. 418-427). Association for Computational Linguistics.
[30] Junczys-Dowmunt, M., Dwojak, T., & Hoang, H. (2016). Is neural machine translation ready for deployment. A case study on, 30.
[31] Bojar O, Chatterjee R, Federmann C, et al. Findings of the 2015 Workshop on Statistical Machine Translation[C]. Tech Workshop on Statistical Machine Translation, 2015.
[32] Johnson, M., Schuster, M., Le, Q. V., Krikun, M., Wu, Y., Chen, Z., … & Hughes, M. (2016). Google』s multilingual neural machine translation system: enabling zero-shot translation. arXiv preprint arXiv:1611.04558.
[33] Bartolome, Diego, and Gema Ramirez.「Beyond the Hype of Neural Machine Translation,」MIT Technology Review (May 23, 2016), bit.ly/2aG4bvR.
[34] ACL 2017. (2017). Accepted Papers, Demonstrations and TACL Articles for ACL 2017. [online] Available at: https://chairs-blog.acl2017.org/2017/04/05/accepted-papers-and-demonstrations/ [Accessed 7 Aug. 2017].
[35] Crego, J., Kim, J., Klein, G., Rebollo, A., Yang, K., Senellart, J., … & Enoue, S. (2016). SYSTRAN』s Pure Neural Machine Translation Systems. arXiv preprint arXiv:1610.05540.
机器之心英文网站文章链接:https://syncedreview.com/2017/08/17/history-and-frontier-of-the-neural-machine-translation/
本文为机器之心编译,转载请联系本公众号获得授权。