【热点】谷歌腾讯FACEBOOK最新必争之地：神经网络翻译NMT

新智元

发布于 2018-03-28 14:47:30

1K0

发布于 2018-03-28 14:47:30

文章被收录于专栏：新智元

【新智元导读】 5月10日，Facebook发布了一项新的机器翻译技术，使用CNN技术而非传统的RNN，在翻译准确度超越了此前被认为是2016年10大AI突破技术的谷歌机器翻译，并且翻译速度上快了9倍。Facebook称，在速度上，新的机器翻译系统创下新的世界纪录。本文带来对基于神经网络的机器翻译（NMT）技术的研究状况介绍和对比。我们看到：这一技术在过去两年中已经成为AI 界的一个热点研究，

学术界对神经机器翻译（NMT）的研究兴趣不减。今年到5月份为止，在开放存取论文网站 arXiv.org 上发表的有关 NMT 的研究论文数量几乎相当于2016年全年的该主题论文数量。这个数字印证了我们在去年底预测的趋势。

截至5月7日，arXiv.org 存储库中在标题或摘要中包含 NMT 的论文共有137篇，其中2014年发表的只有7篇，2015年增加到11篇。发生突破的是2016年，发表的论文达到67篇。

NMT，或称基于神经网络的机器翻译方法，被视为是基于短语的统计机器翻译（SMT）和更早以前的基于规则的方法的一个突破。

虽然有许多研究和比较评估指出 NMT 在实现更流畅的翻译结果方面有优势，但该技术仍处于研究的初级阶段，许多有趣的研究方向正在继续展开。

大多数NMT研究者来自美国

到本文发布为止，2017年提交到 arXiv 的 NMT 主题下的论文的作者涉及全球范围的173名研究者，其中大多数（63名）来自美国的大学或研究机构。

最高产的作者是 Kyunghyun Cho，纽约大学计算机科学系，库朗数学研究所的助理教授。去年一年，Cho 的沦为得到14次引用。

Cho 作为共同作者的论文一共三篇，分别是：《Nematus：一个神经翻译工具包》，《学习句法分析和翻译改进 NMT》，以及《可训练的NMT的贪婪解码》，协作者包括来自爱丁堡大学，海德堡大学和欧洲苏黎世大学的研究人员，东京大学和中国香港大学，以及土耳其中东技术大学。

除 Cho 之外，还有62位来自九所美国大学的研究人员在 arXiv 公布了他们在 NMT 方面的研究，这九所大学分别是：加州大学伯克利分校，CMU，纽约大学，麻省理工学院计算机科学与人工智能实验室，剑桥大学，斯坦福大学，佐治亚理工学院，约翰霍普金斯大学，以及哈佛大学。

来自欧洲的61位研究者也在这一主题下发表了大量论文，作者的国籍包括：英国（18），德国（11），爱尔兰（13）和荷兰（7）。

来自亚洲的有58篇NMT主题的论文，主要来自中国（包括中国香港和中国台湾）31篇，日本22篇，韩国3篇以及新加坡2篇。

来自美国科技巨头的研究团队，例如 Facebook Research、谷歌大脑、IBM Watson、英伟达（NMT 运行于其 GPU 芯片之上）以及机翻技术先驱SYSTRAN 也一直在向 arXiv 贡献研究成果。

例如，来自谷歌大脑研究人员的论文提供了有关构建和扩展 NMT 架构的洞见，并提供了一个开源的 NMT 框架来验证结果。

哈佛和 SYSTRAN 的研究者介绍了一个开源的 NMT 工具包 OpenMT，它提供了一个用于训练和部署神经机器翻译模型的库。他们表示，该工具包将进一步发展，“在研究前沿保持强大的 MT 成果”，为产出类应用提供了稳定的框架。

NMT，数学遇见语言

Facebook 于2017年5月9日宣布，正在开源其 NMT 模型，并有一篇关于论文发在 arXiv 上。该论文以《神经机器翻译学习联合多语言句子表征》为题（Learning Joint Multilingual Sentence Representations with Neural Machine Translation），由其 AI 研究团队的两名成员与 the Informatics Institute – University of Amsterdam 和 the Middle East Technical University 的其他两位研究人员合作撰写。

在亚洲，中国互联网供应商腾讯今年有两篇论文贡献出来。一篇来自其深圳的 AI Lab（《神经机器翻译源句法建模》（Modeling Source Syntax for Neural Machine Translation））; 另一篇，来自腾讯移动互联网部门（《使用线性关联单位的深度神经机器翻译》（Deep Neural Machine Translation with Linear Associative Unit）），这是和苏州大学、中国科学院及都柏林大学的联合研究。

北京的微软亚洲研究院今年也开始进行 NMT 方面的研究。本月刚上传了两篇论文（《对抗神经机器翻译》（Adversarial Neural Machine Translation）和《MAT：图像字幕多模态转换器》（MAT: A Multimodal Attentive Translator for Image Captioning））。

微软自己的研究人员与中国科技大学、中国台湾中山大学，广东省信息安全技术重点实验室，清华大学，UESTC 和 Johns Hopkins University 等科研人员展开了研究合作。

附：

谷歌论文：https://arxiv.org/abs/1703.03906
哈佛大学论文：https://arxiv.org/abs/1701.02810
Facebook 论文：https://s3.amazonaws.com/fairseq/papers/convolutional-sequence-to-sequence-learning.pdf
腾讯论文：https://arxiv.org/abs/1705.01020
中国移动论文：https://arxiv.org/abs/1705.00861
微软论文：https://arxiv.org/abs/1704.06933

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络