attention 机制入门

在下面这两篇文章中都有提到 attention 机制: 使聊天机器人的对话更有营养 如何自动生成文章摘要

今天来看看 attention 是什么。

下面这篇论文算是在NLP中第一个使用attention机制的工作。他们把attention机制用到了神经网络机器翻译(NMT)上,NMT其实就是一个典型的sequence to sequence模型,也就是一个encoder to decoder模型 https://arxiv.org/pdf/1409.0473.pdf

encoder 里面用的是 Bi RNN,这样每个单词的表达不仅能包含前一个单词的信息,还可以包含后一个; 前向RNN按输入序列的顺序,生成同样顺序的隐藏层状态,反向RNN则逆向生成隐藏层状态序列,然后我们将每个时刻的这两个状态合并为一个状态,这样它就既包含当前单词的前一个单词信息,也包含后一个信息; 这个状态之后将被用于 decoder 部分。

这里的条件概率是这样的,

和一般的encoder decoder区别就是这个条件概率考虑了每个单词的语境向量 c

c 就是由前面得到的 h 计算

权重 alpha 由 e 计算,alpha i j 相当于 y i 是由 x j 翻译而成的概率,这个概率就反映了 hj 的重要性

这里就应用了 attention 机制,这样 decoder 就决定了输入句子中的什么部分需要加以注意

有了注意力机制就不用把所有的输入信息都转化到一个固定长度的向量中

e 是个 score,用来评价 j 时刻的输入和 i 时刻的输出之间的匹配程度,

a 是一个 alignment midel,是一个前向神经网络。

这篇文章中有 seq2seq+attention 的实现: seq2seq 的 keras 实现

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

教程 | 如何估算深度神经网络的最优学习率

39050
来自专栏机器之心

入门 | 单样本学习:使用孪生神经网络进行人脸识别

42790
来自专栏计算机视觉战队

这样可以更精确的目标检测——超网络

暑假的“尾巴”很多人都抓不住了,因为不知不觉,新的学期要开始了,几家欢喜几家愁,但是会想起学生时代的我,还是特征憧憬新的学期到来,那种激动的心情无法用美丽的辞藻...

24340
来自专栏数据派THU

独家 | 一文带你上手卷积神经网络实战(附数据集、学习资料)

原文标题:Understanding deep Convolutional Neural Networks with a practical use-case ...

43980
来自专栏专知

【深度】Deep Visualization:可视化并理解CNN

【导读】本文利用非参数化方法来可视化CNN模型,希望帮助理解CNN。 专知公众号转载已获知乎作者余俊授权。 原文地址: https://zhuanlan.zhi...

82940
来自专栏目标检测和深度学习

李飞飞等提出新的迭代视觉推理框架,在ADE上实现8.4 %的绝对提升

译者 | 梁红丽 张蔚敏 编辑 | 明 明 出品 | AI科技大本营 【AI科技大本营导读】近日,李飞飞等提出了一种新的迭代视觉推理框架。该框架超越了目前缺乏推...

398110
来自专栏人工智能

机器学习敲门砖:任何人都能看懂的TensorFlow介绍

选自 kdnuggets 作者:Soon Hin Khor 机器之心编译 参与:Rick、吴攀、李亚洲 本文是日本东京 TensorFlow 聚会联合组...

41960
来自专栏AI科技大本营的专栏

深度学习系列:卷积神经网络结构变化——可变形卷积网络deformable convolutional

作者 | 大饼博士X 上一篇我们介绍了:深度学习方法(十二):卷积神经网络结构变化——Spatial Transformer Networks,STN创造性地...

497100
来自专栏机器之心

302页吴恩达Deeplearning.ai课程笔记,详记基础知识与作业代码

55280
来自专栏人工智能

单样本学习:使用孪生神经网络进行人脸识别

选自towardsdatascience 作者:Firdaouss Doukkali 机器之心编译 参与:Nurhachu Null、刘晓坤 这篇文章简要介绍单...

49080

扫码关注云+社区

领取腾讯云代金券