学界 | CMU论文:神经机器翻译和Seq2seq模型导论

选自arXiv

作者:Graham Neubig

机器之心编译

参与:李泽南、蒋思源

本文是一篇有关机器翻译的详细教程,适用于计算机科学本科背景的读者。据 Paper Weekly(ID:paperweekly)介绍,本论文来自 CMU LTI,内容包括了 Seq2Seq 方法的各个基础知识,包括 N-gram Language Model、Log Linear Language Model、NNLM、RNNLM、encoder-decoder、attention,是一本高质量教程,适合初学者学习。读者可以点击「阅读原文」下载论文。

摘要

本教程介绍了一组强大的技术「神经机器翻译」、「神经 seq2seq 模型」。这些技术已经被应用于处理人类语言相关的很多任务中,也已成为所有顺序数据建模的强大工具。本教程假设读者拥有基础数学和编程知识,但对神经网络和自然语言处理背景没有要求。本文试图解释各种方法背后的思路,然后通过完整的数学解析重现它们,让读者可以深入了解这些技术。此外,本文还有一些实现的建议,读者可以通过练习测试自己对于文中内容的理解程度。

背景

机器翻译是通过计算机翻译人类不同语言的技术。想象一下科幻电影里出现的实时翻译机,它可以实时将一种语言转换为另一种。目前,谷歌翻译等网站在这些方向上已经做得很不错了。机器翻译可以消除语言障碍,具有广泛的应用前景,所以在计算机出现不久以后,这一方向就成为了研究人员关注的焦点。

我们称输入机器翻译系统的语言为源语言,输出语言为目标语言。这样,机器翻译就可以被描述为一种将源语言中的单词序列转换为目标语言单词序列的任务。机器翻译研究者们的目标是最终实现一个高效的模型,让这种转换在各类语言的应用中能够快速进行。

Seq2seq 模型是包括将一个序列映射到另一个序列的所有模型的更广泛类型。它包含机器翻译,同时也包含大量用于处理其他任务的方法。事实上,我们可以把每个计算机程序都看成是输入一个位序列,经过处理输出一个位序列,这意味着所有程序都是表示一些行为的 Seq2seq 模型(尽管在许多情况下,这不是最自然和直观的表达方式)。

一个 Seq2seq 模型任务实例

机器翻译作为 Seq2seq 模型代表具有以下特点:

1、机器翻译是最被认可的 Seq2seq 模型实例,允许我们在其中使用很多直观例子来说明处理此类问题的困难。

2、机器翻译通常是新模型开发阶段接触的主要任务之一,这些模型在发展中经常会首先用于机器翻译,然后才会被应用到其他任务中。

3、当然,也有一些机器翻译从其他任务中获得灵感的案例,从其他任务中获得的启发有助于机器翻译技术的发展。

导论结构

本教程从第二章开始介绍机器翻译所需要的统计学一般数学定义和方法。在随后的章节中,本课程将沿着技术复杂度递增的方向进行阐述,一直到当前该领域最先进的注意模型(attentional models)。

第三章到第六章关注于语言模型,这些语言模型是对兴趣(interest)目标序列的概率进行计算。虽然这些模型不能执行翻译或序列转换(transduction),但对于初步了解 Seq2Seq 模型还是很有帮助的。

  • 第三章重点阐述了 n-gram 语言模型,该模型是一种基于单词在数据集中所出现频率计算其概率的简单方法。同时本章节还阐述了如何使用混乱度(perplexity)等度量方法来评估这些模型的性能好坏。
  • 第四章讲述了对数-线性语言模型(log-linear language models),该模型通过上下文特征计算下一个单词的概率。本章节同时还叙述了如何通过随机梯度下降来学习模型的参数,即通过求解偏导数并一次次迭代更新参数而增加观察数据的似然度。
  • 第五章介绍了神经网络的基本概念,神经网络要比对数-线性语言模型更容易将多信息块组合在一起,从而进一步提升语言模型的准确度。本章节给出了前馈神经网络语言模型这样一个案例,该模型主要通过基于先前词的神经网络预测下一个单词的概率。
  • 第六章介绍了循环神经网络,这是一种允许通过在多个时间步上记录信息的机制。而这种特性催生了循环神经网络语言模型,该模型能在语言或序列数据建模时获取长期依存关系(long-term dependencies)。

最后,第七和八章描述了能够执行机器翻译或其他任务的实际 seq2seq 模型。

  • 第七章描述了编码器-解码器模型,使用递归神经网络将目标序列编码为数字向量,另一个网络会解码这些数字,并将数字向量转换成为语句输出。本章同时也解释了基于此模型生成输出序列的搜索算法。
  • 第八章解释了注意机制,这种方法允许模型在生成翻译时聚焦输入句子的不同部分。这引出了更有效和直观的句子表示方法,并且通常比相对简单的编码器——解码器机制更有效。

©本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | FAIR提出通用音乐转换网络:你的口哨声也能变成交响乐

1838
来自专栏null的专栏

自然语言中的重要概念——熵(Entropy)

一、背景 熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。 熵(Entropy)是描述事物无序性的一个重要的参数...

2473
来自专栏技术沉淀

NumPy 实现梯形法积分

1142
来自专栏小石不识月

如何为神经机器翻译配置一个编码器 - 解码器模型

循环神经网络(RNN,Recurrent Neural Networks)中的编码器 - 解码器(Encoder-Decoder)架构在标准机器翻译基准上取得了...

3559
来自专栏新智元

【谷歌机器翻译破世界纪录】仅用Attention模型,无需CNN和RNN

【新智元导读】 谷歌在机器翻译上的一项最新研究:仅使用注意力机制构建模型,不需要CNN和RNN。作者称,在机器翻译上这一模型效果超越了当下所有公开发表的机器翻译...

3424
来自专栏CDA数据分析师

机器学习基础与实践(一)——数据清洗

想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧...

2587
来自专栏机器学习、深度学习

视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 h...

4907
来自专栏新智元

对抗神经机器翻译:GAN+NMT 模型,中国研究者显著提升机翻质量

【新智元导读】中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作,提出了一种新的“对抗神经机器翻译”(Adversarial-NMT) 模...

61420
来自专栏人工智能

浅谈神经机器翻译

发明计算机的最早目标之一就是自动将文本从一种语言翻译成另一种语言。

2488
来自专栏大数据文摘

论文Express | CNN:果蝇视觉理解能力几何?

众所周知,黑腹果蝇(Drosophila melanogaster)生活在神秘的社交性的触觉和气味世界中,但他们能够在多大程度上感知和整合静态视觉信息是一个备受...

902

扫码关注云+社区

领取腾讯云代金券