华为诺亚加入竞争，看深度学习如何改变机器翻译

用户1737318

发布于 2018-06-05 12:19:42

3490

发布于 2018-06-05 12:19:42

文章被收录于专栏：人工智能头条

摘要：诺亚采取了一种独特的双边策略：既在传统翻译模型的架构下加入深度学习的组件，也同时尝试完全基于神经网络的深度架构。诺亚以一种以卷积神经网络（CNN）为主的架构作为其深度学习的主要工具。

机器翻译，被认为是人工智能和自然语言处理的“圣杯”。上个世纪九十年代，机器翻译刚刚经历了一次变革，完成了从以规则为基础的方法到统计方法的变迁。而许多人相信我们正在经历第二次变革，这一次则是深度学习为主的方法。

深度学习是否能够取代传统的统计方法，业界现在尚无定论。但是对于很多前沿的机器翻译研究人员来说，他们其实更关心的是这次革命如何发生以及他们能否成为这次变革中的英雄。华为在中国香港和深圳的诺亚方舟实验室（下文简称“诺亚”）的研究员们就是其中的一份子。

诺亚资深研究员吕正东向CSDN介绍，诺亚自建立以来一直致力于数据处理和自然语言理解，机器翻译是其核心任务之一，深度学习已经成为诺亚研究机器翻译技术的主要工具。

诺亚采取了一种独特的双边策略：既在传统翻译模型的架构下加入深度学习的组件，也同时尝试完全基于神经网络的深度架构。诺亚以一种以卷积神经网络（CNN）为主的架构作为其深度学习的主要工具。CNN也是FFNN的一种特定形式，其在计算机视觉特别是图像识别方面已经取得了令人瞩目的成功，但是用于机器翻译还是相对新鲜的尝试。

吕正东介绍，诺亚最近的两项工作分别把CNN用于对源端的表示和对目标端句子的生成过程。

在第一项工作中，CNN利用解码端的信号来对源端的句子进行有针对性的向量形式的总结，而这个方法在另一个FFNN的帮助下可以被直接用于解码过程。在传统机器模型中应用诺亚该CNN模型，BLEU值相对于传统模型可带来2个点的提升。【1】
与第一项工作不同，第二项工作更贴近深度神经网络，所使用的架构是一种经过巧妙设计的CNN。当这个CNN模型被用来生成目标端的自然语言句子时，在BLEU值上也取得了不亚于上一个工作的提升。不仅如此，这个CNN模型还可以被直接用来对别的翻译模型生成的候选语句进行语言模型意义上的重排序，从而提升翻译语句的质量。【2】

在诺亚之前，机器翻译已经在短短两年时间内取得了惊人的进展，包含Google Brain、Raytheon BBN Technologies (BBN)、蒙特利尔大学和百度在内的多个研究机构都在不断地推进这项研究，当然也包括这些机构对深度学习的应用。

Google Brain采取了一种最为极端的策略：以一个“编码”递归神经网络（RNN）发现对待翻译句子（源端）的表示，用另一个“解码”RNN将这个表示展开成（目标端）的句子。Google的模型有三亿多的参数，同时对训练数据的数量和平台都有较高要求。【3】
蒙特利尔大学的策略和Google的接近，但是巧妙地利用一种自动对齐的策略来避免对源端的纯粹的向量表示，从而可以在较小规模的参数和数据集上也有较好的效果。【4】
BBN的策略与前两者不同，他们更多的依赖传统模型而非深度的神经网络，但是在传统模型中增加了一个高效的前向神经网络（FFNN）的联合语言模型，从而大大提高了解码的效果。【5】
百度新发布的翻译系统，应用了长短时记忆（LSTM，Long Short-Term Memory）的RNN模型。该模型擅长对自然语言建模，把任意长度的句子转化为特定维度的浮点数向量，同时“记住”句子中比较重要的单词，让“记忆”保存比较长的时间。该模型能够很好地解决自然语言句子向量化的难题。

去年获得ACL（自然语言处理领域的顶会）最佳论文奖的BBN模型，被广泛认为代表了国际先进水平，该模型相比较传统模型在BLEU值（用以衡量机器翻译效果）取得了1个点的提升。

诺亚的双边策略与Google Brain、BBN、和蒙特利尔大学的单边策略显然有所不同。在传统机器模型中应用诺亚第一项工作中的CNN模型，相对于BBN的最新模型也提升了1个点。诺亚第二项工作的提升，在深度神经网络也是非常好的效果。

由此看来，随着深度学习的普及应用，机器翻译的竞赛才刚刚开始且渐趋白热化。以深度学习为基础的框架是否能够取得优于传统模型的结果，其进展和速度如何，请您随时关注CSDN人工智能社区。如果您有好的人工智能技术成果分享，也欢迎投稿（zhoujd@csdn.net）。

参考文献

【1】F. Meng, Z. Lu, M. Wang, H. Li, W. Jiang and Q. Liu. Encoding source language sentence with a convolutional neural network for machine translation. In Proceedings of ACL,2015.

【2】M. Wang, Z. Lu, H. Li, W. Jiang, and Q. Liu. genCNN: A convolutional architecture for wordsequence prediction. In Proceedings of ACL,2015.

【3】I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks.In Advances in Neural Information Processing Systems, pages 3104-3112, 2014.

【4】D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. In Proceedings of ICLR, 2015.

【5】J. Devlin, R. Zbib, Z. Huang, T. Lamar, R. Schwartz, and J. Makhoul. Fast and robust neural network joint models for statistical machine translation. In Proceedings of ACL, 2014

【预告】中国人工智能大会（CCAI 2015）将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线，预约咨询：QQ：1192936057。欢迎关注。

大会官网：http://ccai2015.csdn.net/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-06-25，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习