专栏首页人工智能前沿讲习精选论文 | 机器翻译【附打包下载】

精选论文 | 机器翻译【附打包下载】

关注文章公众号 回复"SFFAI32论文"获取本主题精选论文

论文推荐

机器翻译一直是自然语言处理领域的热门及前沿方向,不论是sequence-to-sequence架构,attention mechanism还是Transformer模型等,都和机器翻译有着最为紧密的关系。6月2日(周日),《SFFAI 32-机器翻译》两位主讲嘉宾(张文,邵晨泽)为大家精选了机器翻译近期在模型、训练、解码以及非自回归结构中的几篇代表性工作,和大家一起学习分享最新的研究进展。

你可以认真阅读,来现场和讲者面对面交流哦。

1

推荐理由:关系推理是一般智能行为的核心组成部分,但是学者们已经证明神经网络很难学习到关系信息。在本文中,作者提出关系网络(RN),并描述了如何使用RN作为一个简单的即插即用的模块从根本上解决依赖于关系推理的问题。他们在三个任务上测试了RN增强的网络:在视觉问答的数据集CLEVR上,他们提出的RN实现了state-of-the-art的性能;在基于文本的问题任务上,RN可以实现关于动态物理系统的复杂推理;然后,在名为Sort-of-CLEVR的数据集上,作者验证了强大的卷积网络不具备解决关系问题的能力,但RN增强的模型具有该能力。总之,他们的工作解释了配备RN模块的深度学习架构如何隐式发现并学习实体及其关系的推理。

推荐理由来自:张文

2

推荐理由:尽管使用编码器-解码器框架的NMT模型近来取得了巨大成功,但它仍然存在遗忘长距离依赖信息的问题,这是循环神经网络结构的固有缺点,并且在编码过程中忽略了源端序列中词语之间的关系。然而在实际应用当中,之前的历史信息和关系信息通常是有用的。为了缓解这些问题,我们在编码器中引入关系网络增强编码器的表示能力。关系网络通过将源端词语两两关联,进而增强RNN的记忆能力。在解码时带有源端关系信息的表示输入到注意力模块,我们的模型保持编码器-解码器框架不变。在几个数据集的实验表明,与传统的编码器-解码器模型相比,我们的方法可以显著提高翻译性能,甚至优于引入监督语法知识的方法。

荐理由来自:张文

3

推荐理由:如何高效解码一直是机器翻译面临的一个基本问题,特别是集成了语言模型之后,而语言模型通常对于实现良好的翻译质量是必不可少的。作者基于k-best句法分析的算法设计了更快解码方法,并且验证了所提出方法在基于短语和基于句法的翻译系统上的有效性。针对两个翻译系统,在获得相同搜索误差和翻译精度的情况下,他们的方法比传统柱搜索算法有十倍以上速度提升。

荐理由来自:张文

4

推荐理由:虽然神经网络机器翻译(NMT)模型已经取得了可喜的成果,但它的解码效率还比较低。这所导致的后果就是我们必须在翻译质量和翻译速度之间进行权衡,因此翻译性能无法得到充分发挥。我们使用立方体剪枝(Cube Pruning)算法优化NMT解码效率。我们探索出解码器中比较耗时的计算单元有RNN和目标大词表上的归一化操作。在传统柱搜索算法中的每一步,我们通过组合类似的目标隐藏状态构造等价类,减少目标端的RNN扩展操作以及大词汇表上的归一化操作。实验表明,在达到相同甚至更好翻译性能的情况下,与传统柱搜索算法相比,我们的方法可以分别在GPU和CPU上提高解码效率3.3倍和3.5倍。

推荐理由来自:张文

5

推荐理由:给定一些输入,RNN模型可以输出一个词语序列,例如最近的机器翻译模型。当前模型训练的方法是在给定当前循环状态和之前词语序列的情况下最大化序列中每个词语的概率。而在测试阶段,之前参考词语序列是未知的,只能由模型自身预测出的历史序列取代。训练和测试之间的这种差异可能沿着所生成的序列快速地产生错误累积。针对这种现象,作者提出了一种课程学习的策略,在训练过程中,从完全由真实的先前词语序列指导模型训练转化为较少地由真实的先前词语序列指导,大多数情况下由模型本身生成的词语序列代替。在几个序列预测任务的实验表明,所提出的方法产生了显著的改进。

推荐理由来自:张文

6

推荐理由:这篇文章发表于ICLR2018,基于Transformer模型的并行特性,首次提出了非自回归的机器翻译模型,将模型的解码速度提升了十几倍。该文章给出了基于Transformer的非自回归模型的基本结构和基于uniform copying、fertilities的两种解码器输入方式,并用知识蒸馏的技巧降低了模型的学习难度。

推荐理由来自:邵晨泽

7

推荐理由:这篇文章发表于EMNLP2018,提出了基于迭代优化方法的非自回归机器翻译模型。该文章将非自回归模型的解码器看作一个迭代式的优化器,通过将解码器输出的译文输回到解码器的输入端,来增强解码器的输入信息并实现译文的迭代优化。该文章开源了所有的代码、数据、模型,易于研究者进行复现和进一步的开发。

推荐理由来自:邵晨泽

8

推荐理由:这篇文章发表于EMNLP2018,提出了半自回归的神经机器翻译模型。该文章对自回归和非自回归的机制进行了折衷,提出了以组为单位的半自回归生成机制,每次解码出数量为K的一组词,并将该组词作为生成下一组词时的输入。该方法达到了接近自回归模型的翻译效果,并在翻译速度上做出了可观提升。

推荐理由来自:邵晨泽

9

推荐理由:这篇文章发表于AAAI2019,针对非自回归模型中解码器输入较弱的问题,提出了两种增强解码器输入的方法:(1)从SMT模型的短语表中快速生成译文,将译文的词嵌入作为解码器的输入。(2)通过一个线性映射,将源端句子的词嵌入映射到目标端来作为解码器的输入。

推荐理由来自:邵晨泽

10

推荐理由:这篇文章发表于ICLR2016,指出了自回归模型中存在的训练与测试不一致的问题(exposure bias),并指出问题的根源在于词级别的损失函数。文章提出了基于强化学习的序列级训练方法,在预训练模型的基础上,以评价指标BLEU来训练自回归模型并消除exposure bias。

推荐理由来自:邵晨泽

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:must

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

    基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在...

    马上科普尚尚
  • 数据挖掘的前沿论文,看我们推荐的这7篇

    近年来,电商平台飞速发展,搭配问题是电商系统中的一个非常重要的任务,它涉及对商品的深入理解整合。阿里京东等公司,都设计了专门独立的搭配平台,比如时尚大脑,滴搭系...

    马上科普尚尚
  • SFFAI分享 | 张文:Recent Advances in NMT【附PPT与视频资料】

    本次分享中,我们介绍一下近期的工作,分别以缓解上述三个问题为出发点,提出的三种方法:

    马上科普尚尚
  • 机器翻译新突破!“普适注意力”模型:概念简单参数少,性能大增

    目前,最先进的机器翻译系统基于编码器-解码器架构,首先对输入序列进行编码,然后根据输入编码生成输出序列。两者都与注意机制接口有关,该机制基于解码器状态,对源令牌...

    新智元
  • 【机器学习】机器到底在学习什么?

    机器识别手写数字的问题早已经解决,MNIST数据集http://yann.lecun.com/exdb/mnist/如今机器识别的准确率已经超过99%。事实上,...

    量化投资与机器学习微信公众号
  • 基于R.M.B的下一代网管

    鹅厂网事
  • 腾讯云弹性网卡绑定多个IPWINDOWS下的设置

    网卡绑定多个IP请参考https://cloud.tencent.com/developer/article/1171566

    用户3959706
  • 深度学习基础知识 | 上

    MLP网络是一种应用最为广泛的一种网络,其中DNN就是属于MLP网络,它是一个前向结构的人工神经网络,输入一组向量向前传播输出向量,网络结构如下:

    昱良
  • 「业务架构」商业中的成熟度模型是什么(CMM、AIMM)

    当你在建立一个企业、一个团队或任何类型的系统时,你需要一些方法来了解你做得有多好。

    首席架构师智库
  • 谷歌新推出 Titan 安全密钥 开发商为一家中国公司

    据CNBC报道,谷歌为确保网页服务登录安全而推出的新产品Titan安全密钥是由中国飞天诚信科技股份有限公司(Feitan)开发的。

    周俊辉

扫码关注云+社区

领取腾讯云代金券