前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

作者头像
机器之心
发布2018-05-10 16:43:14
7170
发布2018-05-10 16:43:14
举报
文章被收录于专栏:机器之心机器之心

选自arXiv

机器之心编译

机器之心编辑部

近日,AAAI 2018 公布论文接收列表,百度机器翻译团队的论文《Multi-channel Encoder for Neural Machine Translation》上榜。文章提出了一种多信道编码器(MCE)模型,可改进传统神经机器翻译(NMT)模型单一信道编码的缺点。该模型在中英翻译上的 BLEU 值提升了超过 6 个百分点,在英法翻译上用单层模型取得了可与深层模型媲美的效果。本文对该论文的主要内容做了介绍。

基于注意力的神经机器翻译无疑成为 NMT 最有效的架构,在许多语言对上超越了传统的统计机器翻译(SMT)系统(Sen-nrich et al. 2017)。基于注意力的模型之所以能够大大超越典型的编码器-解码器模型,在于它能够通过一个相对简单的匹配函数动态检索相关联的源语块(类似 SMT 中的对齐)。换言之,基于注意力的模型受益于丰富的源语句表征及其表示局部结构的灵活性。

在典型的基于注意力的 NMT 系统中,使用双向循环神经网络(biRNN) 对源语句进行编码,利用 RNN 生成向量序列,粗略来说这些向量就是源语句单词的上下文感知嵌入(context-aware embedding)。这种设计下,编码器学习相对一致的句子组合。如今,编码器中的 RNN 已经被一些先进的门控机制变体所替代,例如 LSTM 和 GRU。对翻译来说,普遍希望解码器采用极其符合自己语言架构的语句组合块。

在此需求下,百度研究员提出了一种多信道编码模型(MCE),采用不同层次组合的编码组件。更具体而言,除了编码 RNN 的隐态,MCE 为不带组合的原始编码采取了原始词嵌入,并在 NTM 中以类似于带有不同频率的视觉信道的方式为更复杂的组合专门设计了外部存储器。所有三个编码策略在由参数控制的解码过程中被适当混合,并能够以端到端的方式被学习。更具体说,百度设计了一个可以自动调节不同编码信道权重的门控机制。

在此论文中,作者们也调查了 MCE 在不同的翻译任务上的表现。首先,在 NIST 中翻英任务上测试了该模型,相比于强大的 DL4MT 系统平均提升了 6.52 的 BLEU 得分。此外,在 WMT 2014 英翻法任务上,单个浅层模型获得了 38.8 的 BLEU 得分,可媲美于顶级模型。

论文:Multi-channel Encoder for Neural Machine Translation

论文链接:https://arxiv.org/abs/1712.02109

摘要:基于注意力的编码器-解码器是非常有效的神经机器翻译(NMT)架构,它通常依赖于循环神经网络(RNN)在解码过程中构建由 attentive reader 调用的块。尽管使用门控机制编码 RNN,但这种编码器的设计在源语句上产生了相对一致的组合。另一方面,我们常常希望解码器能够在不同层次上采取若干个源语句来匹配其自身语言结构:比如,我们也许想采取原始形式的实体名,同时采取一个习语(idiom)作为一个完美的组成单元。受此需求启发,我们提出了多信道编码器(Multi-channel Encoder/MCE),它增强了不同层面组合的编码组件。更具体的是,除却编码 RNN 的隐藏状态,1)MCE 为不带组合的原始编码采取了原始词嵌入;2)神经图灵机(NTM)专门设计的外部存储器用于更加复杂的组合,而所有三种编码策略在解码时被恰当地混合。汉英翻译的实证研究表明,我们的模型在强大的开源 NMT 系统 DL4MT1 上实现了 6.52 个 BLEU 百分点的提升。在 WMT14 英法语翻译务中,我们的单一浅层系统达到了 38.8 的 BLEU 值,与当前最优的深度模型相当。

图 1:左图是传统的基于注意力的 NMT 模型,包含编码器、解码器和一个注意力机制。右边是我们的全新 NMT 模型,带有多个信道编码器,包含来自双向 RNN 的隐藏状态、NTM 中的外部存储和直接来自输入序列的嵌入,并设计了一种门控注释(gated annotation)自动学习不同解码组件的权重。

图 2:编码器中 NTM 的图示,每一时间步上 RNN 在 NTM 中的读和写。

表 1:不同系统在中翻英任务上的表现。相比于强大的开源系统 DL4MT,我们的模型有极大的改进。我们也列出了与近期开源的两个工具包 T2T、ConvS2S 的对比。要知道,T2T 和 ConvS2S 都是多层的深度模型。

表 2:英翻法任务:BLEU 得分。其中 RNN 表示基础的循环神经网络模型,MCE 模型结合了从 RNN 的嵌入、隐藏状态以及 NTM 中的外部存储三种编码组件。注意,我们的模型不执行 PosUNK,且使用小型词汇量。

图 3:不同语句长度下的性能。

百度机器翻译简介:百度机器翻译团队继 2015 年推出全球首个 NMT 线上翻译服务之后,通过持续不断的技术创新,在 NMT 模型研究和产品商业化应用上屡创佳绩。在今年的百度世界大会上成功展示了自动同声传译系统,语音识别和机器翻译技术无缝衔接,翻译结果流畅自然。同时,百度也在今年推出了一键式多语种 WIFI 翻译机,产品自带 80 多个国家的 4G 网络、语种自动识别,提供多语种高质量语音翻译。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档