与谷歌翻译持平,华为诺亚方舟实验室全新深度机器翻译模型,提高译文忠实度

【新智元导读】华为诺亚方舟实验室在他们一篇被 AAAI 2017 录用的论文里提出了一个新的神经机器翻译(NMT)模型,引入基于重构的忠实度指标,结果显示该模型确实有效提高了机器翻译的表现。华为诺亚方舟实验室的研究人员表示,他们的 NMT 技术与谷歌持平。

基于深度学习的机器翻译,简称深度机器翻译近两年来取得了惊人的进展,翻译的准确度综合评比已经超过传统的统计机器翻译,研究单位主要有蒙特利尔大学[1,2],斯坦福大学[3,4],清华大学[5,6],谷歌[3,7,8],微软[9]和百度[5,10],以及华为诺亚方舟实验室[11-13],竞争异常激烈。

最近谷歌发表论文[8],介绍了他们最新的研究成果,引起业界广泛关注,他们的系统主要采用了蒙特利尔大学、斯坦福大学、清华大学、以及华为诺亚方舟实验室的技术,以及一些工程上的优化,其最大特点是使用了大规模的训练数据。

我们在同一测试数据集上对谷歌、微软必应、及诺亚的系统做了评测(百度翻译因为直接记录了该测试集,无法直接比较),结果如下图所示。指标是业界标准 BLEU 点,一般来说人的 BLEU 值在50-70之间。

谷歌系统比诺亚系统高大概3个 BLEU 点。我们分析,这主要是因为谷歌系统集成了业界多种最新技术(包括诺亚的 Coverage 技术),以及使用了更大的训练数据集(据说数亿句对 vs. 一百万句对)。其实他们在方法上的创新并不多。可以说诺亚的基本技术与谷歌是持平的。

诺亚最近提出了三个方法,从不同角度提高深度机器翻译的精度。

在 NIST 中英新闻翻译任务上,这三个方法将译文的 BLEU 分数从33.8逐步提高到36.8,取得了9%的提升,达到了业界领先水平。三个工作分别被自然语言处理和人工智能顶级会议及期刊 ACL 2016, TACL 2017 和 AAAI 2017 录用。第一个方法在业界得到广泛好评,也被谷歌采用。下图总结了诺亚的方法对深度翻译的提高。

1. 覆盖率(Coverage)机制 [11]:通过记录哪些词已经被翻译了,鼓励系统翻译未被翻译的词。这个方法可以显著减少遗漏翻译和过度翻译的错误数量。

2. 上下文门(Context Gate)方法[12]:在译文生成过程中,实词和虚词对原文信息的依赖是不一样的。该方法通过自动控制原文信息参与生成不同类型译文词的程度,使原文信息更有序、更完整地传输到译文中。

3. 基于重构(Reconstruction)的忠实度指标[13]:以译文重新翻译成原文的程度来衡量译文的忠实度。通过将重构指标引入训练过程,系统可生成更忠于原文的译文。

深度机器翻译并不能包打天下,在训练数据缺乏,以及人的知识加入的条件下,未必能够发挥威力。诺亚正在研究基于EAI思想的机器翻译,旨在将深度翻译与人的知识结合起来,以开发出更好的机器翻译系统。

下面介绍华为诺亚方舟实验室将 BLEU 分数提高到36.8%的基于重构的深度机器翻译方法[13],该论文被 AAAI 2017 录用。

论文标题:基于重构的神经机器翻译

论文地址:https://arxiv.org/pdf/1611.01874.pdf

摘要

虽然端到端的神经机器翻译(NMT)在过去两年中取得了显着的进步,但 NMT 存在一个很大的缺点:由 NMT 系统产生的译文通常缺乏忠实度。有许多观察显示,NMT 倾向于重复翻译一些源词,而忽略了其他词造成误译。为了减轻这个问题,我们提出了一个新的 NMT 框架,即 编码器 - 解码器 - 重构器(encoder-decoder-reconstructor)框架。重构器被结合到 NMT 模型中,目的是设法从输出的目标句子的隐藏层重构输入的源句子,以确保源句子中包含的信息尽可能多地体现在目标译文中。实验证明,我们提出的框架显著提高了 NMT 输出译文的忠实度,并且我们的翻译结果达到当前 NMT 以及统计机器翻译系统的最先进水平。

图1:基于重构的 NMT 示例

方法

图2:基于重构的 NMT 架构,引入了一个从目标侧的隐藏层映射到原始输入的重构器。

我们提出一个新的编码器 - 解码器 - 重构器框架。具体来说,我们的方法建立在基于注意力机制的 NMT (Bahdanau, Cho, and Bengio 2015; Luong, Pham, and Manning 2015)之上,这个 NMT 将在后面的实验中作为基线。我们注意到,我们提出的方法一般情况下适用于其他任何类型的 NMT 结构,例如序列到序列模型(seq2seq模型)。如图2所示,该模型架构有两个部分组成:

  • 标准的编码器 - 解码器,读取输入的句子并输出翻译结果,以及似然性分数。
  • 增加一个重构器,从解码器读取隐藏状态的序列,并输出一个精确地重构输入句子的分数。

主要结果

表4:对翻译质量的评估。

表4是在测试集上实验的翻译结果的 BLEU 分数。可以看到,RNNSEARCH 模型明显优于 Mose,BLEU 分高了2.2分,表明它是一个很强大的基线 NMT 系统。RNNSEARCH 模型引入了两种先进的技术。增加 beam 的大小以降低测试集上的翻译性能,这样就能与验证集上的结果一致。在下面的分析中,我们将我们的方法与“RNNSEARCH(Beam = 10)”进行比较,因为它在基线系统中有最佳性能。

首先,引入“重构”显著提高了模型性能,在 beam = 10 下新模型比基线模型的 BLEU 分数高 1.1。更重要的是,当扩大解码空间时,新模型的 BLEU 分数进一步提高了。第二,我们的方法在不同的 beam 大小上比基线系统有更好的翻译质量(见最后一列 Oracle 分数)。这证实了我们的想法,即组合的目标对为了产生更好的翻译结果进行参数训练有帮助。

结论

我们提出一个新的 NMT 框架,即编码器 - 解码器 - 重构器框架,其中新增加的重构器引入辅助分数来测量译文的忠实度。我们提出的方法的有点有二:首先,它改进了参数训练以产生更好的翻译结果;第二,当解码空间增大时,它能够持续地提高翻译表现,而常规的 NMT 不能。实验结果表明,这两个优点确实能让基于这个方法的翻译提高质量。未来我们还需要验证我们的方法对更多语言和其他 NMT 架构的有效性。

相关论文:

[1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.

[2] Sebastien Jean, Kyunghyun Cho, Roland Memisevic, and Yoshua Bengio. On Using Very Large Target Vocabulary for Neural Machine Translation. ACL 2015.

[3] Minh-Thang Luong, Ilya Sutskever, Quoc V. Le, Oriol Vinyals, and Wojciech Zaremba. Addressing the Rare Word Problem in Neural Machine Translation. ACL 2015.

[4] Minh-Thang Luong, Hieu Pham, and Christopher D Manning. Effective Approaches to Attention-based Neural Machine Translation. EMNLP 2015.

[5] Shiqi Shen, Yong Cheng, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. Minimum Risk Training for Neural Machine Translation. ACL 2016.

[6] Yong Cheng, Shiqi Shen, Zhongjun He, Wei He, Hua Wu, Maosong Sun, and Yang Liu. Agreement-based Joint Training for Bidirectional Attention-based Neural Machine Translation. IJCAI 2016.

[7] Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. Sequence to Sequence Learning with Neural Networks. NIPS 2014.

[8] Yonghui Wu et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv 2016.

[9] Shi Feng, Shujie Liu, Mu Li, and Ming Zhou. Implicit Distortion and Fertility Models for Attention-based Encoder-Decoder NMT Model. COLING 2016.

[10] Wei He, Zhongjun He, Hua Wu, and Haifeng Wang. Improved Neural Machine Translation with SMT Features. AAAI 2016.

[11] Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, and Hang Li. Modeling Coverage for Neural Machine Translation. ACL 2016.

[12] Zhaopeng Tu, Yang Liu, Zhengdong Lu, Xiaohua Liu, and Hang Li. Context Gates for Neural Machine Translation. TACL 2016.

[13] Zhaopeng Tu, Yang Liu, Lifeng Shang, Xiaohua Liu, and Hang Li. Neural Machine Translation with Reconstruction. AAAI 2017.

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小巫技术博客

机器翻译质量评测算法-BLEU

42030
来自专栏专知

【论文推荐】最新六篇知识图谱相关论文—Zero-shot识别、卷积二维知识图谱、变分知识图谱推理、张量分解、推荐

48520
来自专栏专知

概率论之概念解析:边缘化(Marginalisation)

【导读】前不久,专知内容组为大家整理了数据科学家Jonny Brooks-Bartlett的系列博客(包括概率论引言、极大似然估计、贝叶斯参数估计等),引起不错...

95850
来自专栏专知

【论文推荐】最新七篇知识图谱相关论文—嵌入式知识、Zero-shot识别、知识图谱嵌入、网络库、变分推理、解释、弱监督

【导读】专知内容组整理了最近七篇知识图谱(Knowledge graphs)相关文章,为大家进行介绍,欢迎查看! 1.Learning over Knowled...

56780
来自专栏码洞

水塘抽样与阶层固化

简单抽样算法就是从固定的n个元素里随机选出k个元素,这样每个元素被选的概率都是平等的k/n。简单抽样是最简单的抽样算法,同样也是使用最为普遍的算法。

9920
来自专栏大数据挖掘DT机器学习

方差分析与R实现

方差分析泛应用于商业、经济、医学、农业等诸多领域的数量分析研究中。例如商业广告宣传方面,广告效果可能会受广告式、地区规模、播放时段、播放频率等多个因素的影响,通...

52150
来自专栏从流域到海域

2017年里的词嵌入:趋势和未来方向

原文地址:http://ruder.io/word-embeddings-2017/index.html?utm_campaign=Artificial%2BI...

45770
来自专栏程序生活

动态规划算法总结动态规划基本思路算法实现实例分析参考链接

动态规划 动态规划算法是通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决 基本思路 动态规划算法的基本思想与分治...

36540
来自专栏新智元

ICLR 2017 特稿:谷歌和 Facebook 亮眼表现盘点

【新智元导读】备受瞩目的深度学习&机器学习顶会 ICLR 2017 本周召开。新智元此前全面报道了 ICLR 的最佳论文及议程:ICLR 2017 最佳论文出炉...

32050
来自专栏AI科技评论

开发 | 用数据说话,R语言有哪七种可视化应用?

今天,随着数据量的不断增加,数据可视化成为将数字变成可用的信息的一个重要方式。R语言提供了一系列的已有函数和可调用的库,通过建立可视化的方式进行数据的呈现。在使...

425110

扫码关注云+社区

领取腾讯云代金券