自然语言处理中的注意力机制是干什么的?

王小新 编译自Quora 量子位 出品 | 公众号 QbitAI

谈神经网络中注意力机制的论文和博客都不少,但很多人还是不知道从哪看起。于是,在国外问答网站Quora上就有了这个问题:如何在自然语言处理中引入注意力机制?

Quora自家负责NLP和ML的技术主管Nikhil Dandekar做出了一个简要的回答:

概括地说,在神经网络实现预测任务时,引入注意力机制能使训练重点集中在输入数据的相关部分,忽略无关部分。

注意力是指人的心理活动指向和集中于某种事物的能力。比如说,你将很长的一句话人工从一种语言翻译到另一种语言,在任何时候,你最关注的都是当时正在翻译的词或短语,与它在句子中的位置无关。在神经网络中引入注意力机制,就让它也学会了人类这种做法。

注意力机制最经常被用于序列转换(Seq-to-Seq)模型中。如果不引入注意力机制,模型只能以单个隐藏状态单元,如下图中的S,去捕获整个输入序列的本质信息。这种方法在实际应用中效果很差,而且输入序列越长,这个问题就越糟糕。

图1:仅用单个S单元连接的序列转换模型

注意力机制在解码器(Decoder)运行的每个阶段中,通过回顾输入序列,来增强该模型效果。解码器的输出不仅取决于解码器最终的状态单元,还取决于所有输入状态的加权组合。

图2:引入注意力机制的序列转换模型

注意力机制的引入增加了网络结构的复杂性,其作为标准训练模型时的一部分,通过反向传播进行学习。这在网络中添加模块就能实现,不需要定义函数等操作。

下图的例子,是将英语翻译成法语。在输出翻译的过程中,你可以看到该网络“注意”到输入序列的不同部分。

图3:翻译网络示意图

由于英语和法语语序比较一致,从网络示意图可以看出,除了在把短语“European Economic Zone(欧洲经济区)”翻译成法语“zone économique européenne”时,网络线有部分交叉,在大多数时,解码器都是按照顺序来“注意”单词的。

文中配图来自Distill

推荐阅读:

Attention and Augmented Recurrent Neural Networks http://distill.pub/2016/augmented-rnns/

Attention and Memory in Deep Learning and NLP http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/

Peeking into the neural network architecture used for Google’s Neural Machine Translation https://smerity.com/articles/2016/google_nmt_arch.html

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2017-05-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

算法可视化:把难懂的代码画进梵高的星空

30640
来自专栏腾讯音视频实验室

带宽节省利器——帧率上采样

目前大多数人都关注点都在超分辨率技术上,为何不Pick一下帧率上采样呢?

7.8K40
来自专栏杂七杂八

Doc2vec预测IMDB评论情感

本文内容源自于国外2015年的一篇博客,中文翻译可以在伯乐在线看到。可以整体了解一些word2vec和doc2vec的使用方法,但是由于时间过去很久了,gens...

1.1K90
来自专栏人工智能头条

如何使用 RNN 模型实现文本自动生成 |

58220
来自专栏技术随笔

[透析] 卷积神经网络CNN究竟是怎样一步一步工作的?

38160
来自专栏新智元

谷歌开源神经网络模型,压缩图片比传统方法提升25%(附论文)

【新智元导读】 谷歌官方博客今天发布了一篇文章,介绍如何使用神经网络压缩图片。在论文中,谷歌证明了神经网络可以获得比现在普遍使用的压缩方法质量更好、大小更小的图...

44140
来自专栏文武兼修ing——机器学习与IC设计

基于Pytorch的CapsNet源码详解CapsNet基本结构代码实现参考

CapsNet基本结构 参考CapsNet的论文,提出的基本结构如下所示: ? capsnet_mnist.jpg 可以看出,CapsNet的基本结构如下所示:...

37870
来自专栏AI研习社

如何对非结构化文本数据进行特征工程操作?这里有妙招!

文本数据通常是由表示单词、句子,或者段落的文本流组成。由于文本数据非结构化(并不是整齐的格式化的数据表格)的特征和充满噪声的本质,很难直接将机器学习方法应用在原...

59860
来自专栏人工智能

基于神经网络的图像压缩技术

(本文由软件工程师 Nick Johnston 和 David Minnen 发布)

991120
来自专栏云时之间

NLP入门之N元语法模型

在上边我们知道其实当今的自然语言处理的主流趋势是统计自然语言处理,而统计自然语言处理的基本目的就是结合语料库中的一些数据对于某些未知的数据进行处理,从而根据这些...

70750

扫码关注云+社区

领取腾讯云代金券