专栏首页机器之心学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

学界 | 百度AAAI 2018论文提出新型NMT模型,性能堪比深层模型

选自arXiv

机器之心编译

机器之心编辑部

近日,AAAI 2018 公布论文接收列表,百度机器翻译团队的论文《Multi-channel Encoder for Neural Machine Translation》上榜。文章提出了一种多信道编码器(MCE)模型,可改进传统神经机器翻译(NMT)模型单一信道编码的缺点。该模型在中英翻译上的 BLEU 值提升了超过 6 个百分点,在英法翻译上用单层模型取得了可与深层模型媲美的效果。本文对该论文的主要内容做了介绍。

基于注意力的神经机器翻译无疑成为 NMT 最有效的架构,在许多语言对上超越了传统的统计机器翻译(SMT)系统(Sen-nrich et al. 2017)。基于注意力的模型之所以能够大大超越典型的编码器-解码器模型,在于它能够通过一个相对简单的匹配函数动态检索相关联的源语块(类似 SMT 中的对齐)。换言之,基于注意力的模型受益于丰富的源语句表征及其表示局部结构的灵活性。

在典型的基于注意力的 NMT 系统中,使用双向循环神经网络(biRNN) 对源语句进行编码,利用 RNN 生成向量序列,粗略来说这些向量就是源语句单词的上下文感知嵌入(context-aware embedding)。这种设计下,编码器学习相对一致的句子组合。如今,编码器中的 RNN 已经被一些先进的门控机制变体所替代,例如 LSTM 和 GRU。对翻译来说,普遍希望解码器采用极其符合自己语言架构的语句组合块。

在此需求下,百度研究员提出了一种多信道编码模型(MCE),采用不同层次组合的编码组件。更具体而言,除了编码 RNN 的隐态,MCE 为不带组合的原始编码采取了原始词嵌入,并在 NTM 中以类似于带有不同频率的视觉信道的方式为更复杂的组合专门设计了外部存储器。所有三个编码策略在由参数控制的解码过程中被适当混合,并能够以端到端的方式被学习。更具体说,百度设计了一个可以自动调节不同编码信道权重的门控机制。

在此论文中,作者们也调查了 MCE 在不同的翻译任务上的表现。首先,在 NIST 中翻英任务上测试了该模型,相比于强大的 DL4MT 系统平均提升了 6.52 的 BLEU 得分。此外,在 WMT 2014 英翻法任务上,单个浅层模型获得了 38.8 的 BLEU 得分,可媲美于顶级模型。

论文:Multi-channel Encoder for Neural Machine Translation

论文链接:https://arxiv.org/abs/1712.02109

摘要:基于注意力的编码器-解码器是非常有效的神经机器翻译(NMT)架构,它通常依赖于循环神经网络(RNN)在解码过程中构建由 attentive reader 调用的块。尽管使用门控机制编码 RNN,但这种编码器的设计在源语句上产生了相对一致的组合。另一方面,我们常常希望解码器能够在不同层次上采取若干个源语句来匹配其自身语言结构:比如,我们也许想采取原始形式的实体名,同时采取一个习语(idiom)作为一个完美的组成单元。受此需求启发,我们提出了多信道编码器(Multi-channel Encoder/MCE),它增强了不同层面组合的编码组件。更具体的是,除却编码 RNN 的隐藏状态,1)MCE 为不带组合的原始编码采取了原始词嵌入;2)神经图灵机(NTM)专门设计的外部存储器用于更加复杂的组合,而所有三种编码策略在解码时被恰当地混合。汉英翻译的实证研究表明,我们的模型在强大的开源 NMT 系统 DL4MT1 上实现了 6.52 个 BLEU 百分点的提升。在 WMT14 英法语翻译务中,我们的单一浅层系统达到了 38.8 的 BLEU 值,与当前最优的深度模型相当。

图 1:左图是传统的基于注意力的 NMT 模型,包含编码器、解码器和一个注意力机制。右边是我们的全新 NMT 模型,带有多个信道编码器,包含来自双向 RNN 的隐藏状态、NTM 中的外部存储和直接来自输入序列的嵌入,并设计了一种门控注释(gated annotation)自动学习不同解码组件的权重。

图 2:编码器中 NTM 的图示,每一时间步上 RNN 在 NTM 中的读和写。

表 1:不同系统在中翻英任务上的表现。相比于强大的开源系统 DL4MT,我们的模型有极大的改进。我们也列出了与近期开源的两个工具包 T2T、ConvS2S 的对比。要知道,T2T 和 ConvS2S 都是多层的深度模型。

表 2:英翻法任务:BLEU 得分。其中 RNN 表示基础的循环神经网络模型,MCE 模型结合了从 RNN 的嵌入、隐藏状态以及 NTM 中的外部存储三种编码组件。注意,我们的模型不执行 PosUNK,且使用小型词汇量。

图 3:不同语句长度下的性能。

百度机器翻译简介:百度机器翻译团队继 2015 年推出全球首个 NMT 线上翻译服务之后,通过持续不断的技术创新,在 NMT 模型研究和产品商业化应用上屡创佳绩。在今年的百度世界大会上成功展示了自动同声传译系统,语音识别和机器翻译技术无缝衔接,翻译结果流畅自然。同时,百度也在今年推出了一键式多语种 WIFI 翻译机,产品自带 80 多个国家的 4G 网络、语种自动识别,提供多语种高质量语音翻译。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 资源 | 吴恩达deeplearning.ai五项课程完整笔记了解一下?

    机器之心整理 机器之心编译 参与:思源、路雪 自吴恩达发布 deeplearning.ai 课程以来,很多学习者陆续完成了所有专项课程并精心制作了课程笔记,在此...

    机器之心
  • 观点 | 关于序列建模,是时候抛弃RNN和LSTM了

    选自Medium 作者:Eugenio Culurciello 机器之心编译 参与:刘晓坤、思源 作者表示:我们已经陷入 RNN、LSTM 和它们变体的坑中很多...

    机器之心
  • 学界 | 对比神经机器翻译和统计机器翻译:NMT的六大挑战

    选自medium 作者:Ozan Çağlayan 机器之心编译 参与:蒋思源、Smith 本文总结了最近发表的论文「神经机器翻译的六大挑战(Six Chall...

    机器之心
  • 资源 | 吴恩达deeplearning.ai五项课程完整笔记了解一下?

    机器之心整理 机器之心编译 参与:思源、路雪 自吴恩达发布 deeplearning.ai 课程以来,很多学习者陆续完成了所有专项课程并精心制作了课程笔记,在此...

    机器之心
  • 吴恩达deeplearning.ai五项课程完整笔记了解一下?

    来源:机器之心 通过本文为大家解读如何构建自然语言、音频和其他序列数据的模型。 自吴恩达发布 deeplearning.ai 课程以来,很多学习者陆续完成了所...

    数据派THU
  • 一份详细的LSTM和GRU图解

    在这篇文章中,我们将从LSTM和GRU背后的直觉开始。然后我(Michael)将解释使LSTM和GRU表现良好的内部机制。如果你想了解这两个网络背后的机制,那么...

    AiTechYun
  • 超生动图解LSTM和GPU:拯救循环神经网络的记忆障碍就靠它们了!

    AI识别你的语音、回答你的问题、帮你翻译外语,都离不开一种特殊的循环神经网络(RNN):长短期记忆网络(Long short-term memory,LSTM)...

    量子位
  • 小米赴港IPO背后的潜台词

    孟永辉
  • 深度神经网络机器翻译

    2013年,在Brandeis大学聆听薛念文老师(计算语言学领域引用率最高的华人之一, 下图居中, 薛老师右边是好友柏晓鹏和李斌)讨论小组研究语言模型的时候, ...

    史博
  • Canvas入门到高级详解(中)

    以上两个值都可以接受颜色名,16 进制数据,rgb 值,甚至 rgba. 一般先进行设置样式然后进行绘制。

    老马

扫码关注云+社区

领取腾讯云代金券