对抗神经机器翻译:GAN+NMT 模型,中国研究者显著提升机翻质量

【新智元导读】中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作,提出了一种新的“对抗神经机器翻译”(Adversarial-NMT) 模型。他们改变了原有 NMT 将机器翻译与人类翻译可能性最大化的训练目标,将模型翻译结果与人类翻译的差距最小化。测试结果表明,对抗 NMT 在几个强大的基准上都显著提升了翻译质量。

今天介绍的是中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作完成的一项研究。

第一作者 Lijun Wu 来自中山大学数据与计算机科学学院,二作 Yingce Xia 是中国科技大学,Li Zhao、Fei Tian、Tao Qin 都属于微软亚洲研究院,Jianhuang Lai、Tie-Yan Liu 则是广东省信息安全技术重点实验室的研究人员。Jianhuang Lai 同时也属于中山大学数据与计算机科学学院。

作者认为,最新的 NMT 系统虽然相比以前的统计机器翻译(SMT)性能有了显著提升,但翻译质量还有很大的改进空间。作者认为,其中一个主要原因是 NMT 在训练时通常采用最大似然估计(MLE)原理,换句话说,也就是尽可能将机器生成的译文与人类对源语的翻译进行匹配(maximize the probability of the target groundtruth sentence conditioned on the source sentence)。

作者认为,这样做并不能确保机器翻译的结果比人类翻译的更自然、准确和到位。

对抗 NMT,将模型翻译结果与人类翻译的差距最小化

于是,他们在研究 NMT 的学习范式后,采取了一种新的思路——训练 NMT,让模型翻译结果与人类翻译的差距最小化。为此,他们借助了生成对抗网络(GAN)的力量,并将新模型命名为“对抗 NMT”(Adversarial-NMT)。

在对抗 NMT 中,除了典型的 NMT 模型,还有一个对手(adversary)用于区分 NMT 生成的翻译与人类翻译。这个对手是一个精心设计的 CNN。训练时,NMT 和 作为对手的 CNN 这两个模块相互提升性能。

需要指出的是,作者写道,与以往 GAN 生成器都处于连续空间中不同,在他们提出这个新框架里,NMT 模型并非典型的生成模型,而是将源语言句子映射到目标语言句子的概率转换, 而且都处于离散空间中

这样的差异使得在训练 NMT 模型时需要设计新的网络架构和优化方法。于是,作者专门设计了一个卷积神经网络(CNN,如上图所示)模型作为对手,并将在强化学习中得到广泛应用的 REINFORCE 这一策略梯度方法用于优化。

上图展示了对抗 NMT 架构。“Ref”是 Reference 的缩写,代表人类的(ground-truth)翻译结果,“Hyp”则是 Hypothesis 的缩写,表示模型生成的翻译句子。所有黄色部分代表 NMT 模型 G,将源句子 x 映射为译文。红色部分代表对抗网络 D,负责预测给定目标句子是真实翻译还是机器根据源句 x 生成的翻译。G 和 D 相互对抗,生成翻译样本 y’ 训练 D,以及训练 G 的奖励信号策略下降(蓝色箭头表示)。

BLEU 基准测试结果,性能提升显著

下图是论文中给出的对抗 NMT 性能测试实例。

作者提供了 2 个德语→英语的例子,分为上下两栏。从上到下分别显示了德语源句 x、实际(也即人类的)翻译 y、RNNSearch 生成的翻译句子 y’,以及对抗 NMT 生成的翻译 y’。D(x,y’)是模型译文 y’是真实翻译 x 的概率,x 由对手 CNN 计算得出。BLEU 是每个翻译句子的单句翻译 bleu 得分。

下图是不同 NMT 系统在英语→法语之间翻译的性能。默认设置是单层 GRU + 30k 语料库(vocabs)+ 最大似然估计(MLE)训练对象,不是使用单语种数据训练,也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

下面是不同 NMT 系统在德语→英语之间翻译的性能。默认设置是使用 MLE 训练对象的单层 GRU 编码器-解码器模型,也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

论文:对抗神经机器翻译

摘要

在本文中,我们研究了神经机器翻译(NMT)的新学习范式。以往的研究都将人类翻译的可能性最大化,我们则将人类翻译与 NMT 模型给出的翻译的差异最大限度地减少。为了实现这个目标,受近来生成对抗网络(GAN)成功的启发,我们采用对抗训练架构,并将其命名为对抗 NMT。在对抗 NMT 中,NMT 模型的训练对手是一个精心设计的卷积神经网络(CNN)。这个对手 CNN 的目标是区分 NMT 模型生成的翻译结果与人类翻译结果。NMT 模型的目标则是生成高质量的翻译,从而骗过对手。我们还利用策略梯度法协助训练 NMT 模型和对手 CNN。实验结果表明,在英语→法语和德语→英语的翻译任务中,对抗 NMT 在几个强大的基准上都显著提升了翻译质量。

论文地址:https://arxiv.org/pdf/1704.06933.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习自然语言处理

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

作者简介:张俊林,中国中文信息学会理事,目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家,以及在百度和用友担任技术经...

35640
来自专栏利炳根的专栏

学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退

最近识别对象、语音任务达到人类平均水平。日常生活需要世界巨量知识,主观、直观,很难形式化表达。计算机智能需要获取同样知识。关键挑战,非形式化知识传给计算机。

64800
来自专栏技术沉淀

NumPy 实现梯形法积分

14220
来自专栏星流全栈

AI通过照片创建3D模型,3D建模师也要失业?

68080
来自专栏CDA数据分析师

机器学习基础与实践(一)——数据清洗

想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧...

29370
来自专栏机器之心

学界 | 清华大学段路明组提出生成模型的量子算法

选自arXiv 机器之心编译 参与:乾树、樊晓芳 近日,清华大学段路明组提出一种生成模型的量子算法。在证明因子图为量子网络的特例的基础上,继而证明了量子算法在重...

38190
来自专栏机器之心

视频 | NIPS 2017线上分享第二期:利用价值网络改进神经机器翻译

在 NIPS 2017 大会正式开始前,机器之心将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论、技术和研究方法。上周,我们进行了线上分享的第二期,邀请到...

36690
来自专栏上善若水

004计算机图形学之多边形的扫描转换和区域填充

多边形的扫描转换是指: 把多边形的顶点表示转换为点阵表示。也就是知道多边形的边界,如何找到多边形内部的点,即把多边形内部填上颜色。

30280
来自专栏机器之心

教程 | 如何为神经机器翻译配置编码器-解码器模型?

22350
来自专栏机器之心

重磅 | Facebook提出全新CNN机器翻译:准确度超越谷歌而且还快九倍(已开源)

选自code.facebook 作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N...

38780

扫码关注云+社区

领取腾讯云代金券