学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

选自arXiv

机器之心编译

机器之心编辑部

近日,AAAI 2018 公布论文接收列表,百度机器翻译团队的论文《Multi-channel Encoder for Neural Machine Translation》上榜。文章提出了一种多信道编码器(MCE)模型,可改进传统神经机器翻译(NMT)模型单一信道编码的缺点。该模型在中英翻译上的 BLEU 值提升了超过 6 个百分点,在英法翻译上用单层模型取得了可与深层模型媲美的效果。本文对该论文的主要内容做了介绍。

基于注意力的神经机器翻译无疑成为 NMT 最有效的架构,在许多语言对上超越了传统的统计机器翻译(SMT)系统(Sen-nrich et al. 2017)。基于注意力的模型之所以能够大大超越典型的编码器-解码器模型,在于它能够通过一个相对简单的匹配函数动态检索相关联的源语块(类似 SMT 中的对齐)。换言之,基于注意力的模型受益于丰富的源语句表征及其表示局部结构的灵活性。

在典型的基于注意力的 NMT 系统中,使用双向循环神经网络(biRNN) 对源语句进行编码,利用 RNN 生成向量序列,粗略来说这些向量就是源语句单词的上下文感知嵌入(context-aware embedding)。这种设计下,编码器学习相对一致的句子组合。如今,编码器中的 RNN 已经被一些先进的门控机制变体所替代,例如 LSTM 和 GRU。对翻译来说,普遍希望解码器采用极其符合自己语言架构的语句组合块。

在此需求下,百度研究员提出了一种多信道编码模型(MCE),采用不同层次组合的编码组件。更具体而言,除了编码 RNN 的隐态,MCE 为不带组合的原始编码采取了原始词嵌入,并在 NTM 中以类似于带有不同频率的视觉信道的方式为更复杂的组合专门设计了外部存储器。所有三个编码策略在由参数控制的解码过程中被适当混合,并能够以端到端的方式被学习。更具体说,百度设计了一个可以自动调节不同编码信道权重的门控机制。

在此论文中,作者们也调查了 MCE 在不同的翻译任务上的表现。首先,在 NIST 中翻英任务上测试了该模型,相比于强大的 DL4MT 系统平均提升了 6.52 的 BLEU 得分。此外,在 WMT 2014 英翻法任务上,单个浅层模型获得了 38.8 的 BLEU 得分,可媲美于顶级模型。

论文:Multi-channel Encoder for Neural Machine Translation

论文链接:https://arxiv.org/abs/1712.02109

摘要:基于注意力的编码器-解码器是非常有效的神经机器翻译(NMT)架构,它通常依赖于循环神经网络(RNN)在解码过程中构建由 attentive reader 调用的块。尽管使用门控机制编码 RNN,但这种编码器的设计在源语句上产生了相对一致的组合。另一方面,我们常常希望解码器能够在不同层次上采取若干个源语句来匹配其自身语言结构:比如,我们也许想采取原始形式的实体名,同时采取一个习语(idiom)作为一个完美的组成单元。受此需求启发,我们提出了多信道编码器(Multi-channel Encoder/MCE),它增强了不同层面组合的编码组件。更具体的是,除却编码 RNN 的隐藏状态,1)MCE 为不带组合的原始编码采取了原始词嵌入;2)神经图灵机(NTM)专门设计的外部存储器用于更加复杂的组合,而所有三种编码策略在解码时被恰当地混合。汉英翻译的实证研究表明,我们的模型在强大的开源 NMT 系统 DL4MT1 上实现了 6.52 个 BLEU 百分点的提升。在 WMT14 英法语翻译务中,我们的单一浅层系统达到了 38.8 的 BLEU 值,与当前最优的深度模型相当。

图 1:左图是传统的基于注意力的 NMT 模型,包含编码器、解码器和一个注意力机制。右边是我们的全新 NMT 模型,带有多个信道编码器,包含来自双向 RNN 的隐藏状态、NTM 中的外部存储和直接来自输入序列的嵌入,并设计了一种门控注释(gated annotation)自动学习不同解码组件的权重。

图 2:编码器中 NTM 的图示,每一时间步上 RNN 在 NTM 中的读和写。

表 1:不同系统在中翻英任务上的表现。相比于强大的开源系统 DL4MT,我们的模型有极大的改进。我们也列出了与近期开源的两个工具包 T2T、ConvS2S 的对比。要知道,T2T 和 ConvS2S 都是多层的深度模型。

表 2:英翻法任务:BLEU 得分。其中 RNN 表示基础的循环神经网络模型,MCE 模型结合了从 RNN 的嵌入、隐藏状态以及 NTM 中的外部存储三种编码组件。注意,我们的模型不执行 PosUNK,且使用小型词汇量。

图 3:不同语句长度下的性能。

百度机器翻译简介:百度机器翻译团队继 2015 年推出全球首个 NMT 线上翻译服务之后,通过持续不断的技术创新,在 NMT 模型研究和产品商业化应用上屡创佳绩。在今年的百度世界大会上成功展示了自动同声传译系统,语音识别和机器翻译技术无缝衔接,翻译结果流畅自然。同时,百度也在今年推出了一键式多语种 WIFI 翻译机,产品自带 80 多个国家的 4G 网络、语种自动识别,提供多语种高质量语音翻译。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏游戏杂谈

3D引擎为什么使用三角形绘制曲面

这个问题是我第一次接触3D开发就有的疑问,最近在看《游戏引擎架构》(Game Engine Architecture),在书中找到了答案。

1803
来自专栏机器之心

机器之心「GMIS 2017」嘉宾揭秘:LSTM之父Jürgen Schmidhuber

2017 全球机器智能峰会(GMIS 2017),让我们近距离接触「LSTM 之父」Jürgen Schmidhuber。 2017 全球机器智能峰会(GMIS...

3198
来自专栏数据小魔方

R语言构建层次分析模型不看一下吗~

AHP (Analytic Hierarchy Process)层次分析法是美国运筹学家Saaty教授于二十世纪80年代提出的一种实用的多方案或多目标的决策方法...

1862
来自专栏大数据挖掘DT机器学习

一个贯穿图像处理与数据挖掘的永恒问题

作者: 左飞 著有《算法之美——隐匿在数据结构背后的原理(C++版)》 原文 http://blog.csdn.net/baimafujinji/articl...

2453
来自专栏AI研习社

Hopfield 网络和玻尔兹曼机!深度学习之父 Geoffrey Hinton 的神经网络第 11 课(中文字幕)

作为深度学习祖师,Geoffrey Hinton 的每一句每一言,都使学习者如奉纶音。浓缩其毕生所学的《Neutral Network for Machine ...

3615
来自专栏懒人开发

(3.8)James Stewart Calculus 5th Edition:Derivatives of Logarithmic Functions

具体 y = a^x 求导过程,可以见3.5.5: 先化简: (指数函数,只要求导,化成e为底去做, 因为e^x 求导,为 e^x ,这样可以简化难度)

903
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[6.2]:自动编码器——损失函数

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

3547
来自专栏CVer

[计算机视觉] 入门学习资料

本文将介绍计算机视觉相关的经典书籍,顶级期刊/会议,在线学习课程,常用开源库和安利小工具等。 简介 计算机视觉(Computer Vision) 计算机视觉是...

1.2K18
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[6.6]:自编码器——去噪自编码器

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

3415
来自专栏PPV课数据科学社区

连载 | 概率论与数理统计(2) – 随机变量概述

作者:Belter。专注于生物方向的数据分析,一位编程爱好者。关注Python, R和大数据。

841

扫码关注云+社区

领取腾讯云代金券