腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >专栏 >【论文阅读】Attention is all you need

【论文阅读】Attention is all you need

EmoryHuang

发布于 2022-10-31 08:43:57

51300

代码可运行

文章被收录于专栏：EmoryHuang's BlogEmoryHuang's Blog

运行总次数：0

代码可运行

【论文阅读】Attention is all you need

Metadata

authors:: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, Illia Polosukhin

container:: Advances in neural information processing systems

year:: 2017

DOI::

rating:: ⭐⭐⭐⭐⭐

share:: false

comment:: 经典不解释

前言

Transformer 是谷歌在 2017 年底发表的论文 Attention Is All You Need 中所提出的 seq2seq 模型，Transformer 的提出也给 NLP 领域带来了极大震动。现如今，不少模型还是以 Transformer 作为特征抽取机制，比如 BERT 就是从 Transformer 中衍生出来的预训练语言模型。

Overview

Transformer 完全抛弃了传统的 CNN 和 RNN，整个网络结构完全是由 Attention 机制组成。作者认为 RNN 的固有的按照顺序进行计算的特点，限制了并行计算能力，即 RNN 只能是从左向右或是从右向左依次进行计算。

Transformer 和 RNN 的最大区别，就是 RNN 是迭代的、串行的，必须要等当前字处理完，才可以处理下一个字。而 Transformer 模型的训练是并行的，大大增加了计算的效率。

另一方面，作者在编码词向量时引入了 Position coding，即在词向量中加入了单词的位置信息，用来更好地理解语言的顺序。

Transformer 由 Encoder 和 Decoder 两个部分组成，其中 Encoder 负责将输入（自然语言序列）变换为隐藏层特征，Decoder 负责将隐藏层特征还原为自然语言序列。

以机器翻译为例，如下图所示，通过将待翻译文本按顺序进行 Encoder 和 Decoder 之后，最终得到翻译文本：

Transformer Encoder

在对模型的结构有了大概了解之后，我们再仔细看看模型的具体的内部特征。

Model Architecture

按照上面的模型架构图我们可以把模型分为两部分，左半边为 Encoder，右半边为 Decoder。需要注意的是，并不是仅仅通过一层的 Encoder 和 Decoder 就得到输出，而是要分别经过N层，在论文中这个数字是

。

Encoder：Encoder 由

个完全相同的层堆叠而成。每一层都有两个子层，从下到上依次是：Multi-Head Attention和Feed Forward，对每个子层再进行残差连接和标准化。

Decoder：Decoder 同样由

个完全相同的层堆叠而成。每一层都有三个子层，从下到上依次是：Masked Multi-Head Self-Attention、Multi-Head Attention和Feed Forward，同样的对每个子层再进行残差连接和标准化。

接下来我们按照模型结构的顺序逐个进行说明。

Position Encoding

就像之前提到的，Transformer 中抛弃了传统的 CNN 和 RNN，并没有类似迭代的操作，这就意味着 Transformer 本身不具备捕捉顺序序列的能力。为了解决这个问题，论文中在编码词向量时引入了位置编码，即Positional Encoding（PE），将字符的绝对或者相对位置信息注入。

如下图所示，论文在经过 Embedding 之后，又将其与 Position Encoding 直接相加（注意：不是拼接而是简单的对应位置直接相加）

Positional Encoding 可以通过训练得到，也可以使用某种公式计算得到。论文中使用了 sin 和 cos 函数的线性变换来提供给模型位置信息：

其中

表示一句话中单词的位置，

是词向量维度序号，

是词向量维度。

关于 Positional Encoding 的一些问题

在论文中，使用 sin 和 cos 函数的线性变换来提供位置信息，但具体为什么这么设计直接看公式还是有些难理解的。

如果让我们来设计一个简单的 Positional Encoding，一个最简单直观的方法就是

，对每个词的位置进行线性的分配，但实际上这个方法并不可行。举个例子，某句话的长度为 10，另一句话的长度为 100，对编码位置作差，对于同样的差值，包含的意义确实完全不同的，即在两句话中间隔的字符数量明显不相同。

简而言之，理想的编码需要满足一下条件：

对于每个位置的词语，它都能提供一个独一无二的编码
词语之间的间隔对于不同长度的句子来说，含义应该是一致的
它的值应该是有界的

我们将公式转换一下形式：

其中

具体来说，一个词的 Positional Encoding 是这样表示的：

我们知道，

是不断变大的，因此

越来越小，因此频率

也越来越小，这也就意味着随着

词向量维度序号的增大，该位置的数字的变化频率是指数级下降的。

下图展示了 Positional Encoding 具体编码过程：

画图代码如下：

import numpy as np
import matplotlib.pyplot as plt

def get_angles(pos, i, d_model):
    angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    return pos * angle_rates


def positional_encoding(position, d_model):
    angle_rads = get_angles(
        np.arange(position)[:, np.newaxis],
        np.arange(d_model)[np.newaxis, :], d_model)
    # apply sin to even indices in the array; 2i
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    # apply cos to odd indices in the array; 2i+1
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
    pos_encoding = angle_rads[np.newaxis, ...]
    return pos_encoding

tokens, dimensions = 50, 128
pos_encoding = positional_encoding(tokens, dimensions)

plt.pcolormesh(pos_encoding[0], cmap='viridis')
plt.xlabel('Embedding Dimensions')
plt.ylabel('Token Position')
plt.colorbar()
plt.show()

Self Attention

对于输入句子，我们首先进行 Word Embedding，之后又经过 Positional Encoding 之后，最后我们得到了带有位置信息的词向量，记为

。

之后就是最关键的 Self Attention 部分，Attention 的核心内容是为输入句子的每个单词学习一个权重，你甚至可以简单的理解为加权求和。

具体来说，我们需要为每个词向量

准备三个向量

。将所有词向量的

拼接起来，我们就可以得到一个大矩阵，分别记为查询矩阵

，键矩阵

，值矩阵

（在模型训练时，这三个矩阵都是需要学习的参数）。

之后根据

计算：

关于这个公式的详细解读你可以参考我的另一篇文章 Self Attention 详解。

计算 Attention 的一个例子

（以下图片来自 mathor）

每个词向量xtx_txt，假设我们已经有了

和查询矩阵

，键矩阵

，值矩阵

，现在我们来计算具体的输出：

首先是第一步，为了获得第一个字的注意力权重，我们需要用第一个字的查询向量

乘以键矩阵 K

            [0, 4, 2]
[1, 0, 2] x [1, 4, 3] = [2, 4, 4]
            [1, 0, 1]

之后还需要将得到的值经过 softmax，使得它们的和为 1

softmax([2, 4, 4]) = [0.0, 0.5, 0.5]

有了权重之后，将权重其分别乘以对应字的值向量

0.0 * [1, 2, 3] = [0.0, 0.0, 0.0]
0.5 * [2, 8, 0] = [1.0, 4.0, 0.0]
0.5 * [2, 6, 3] = [1.0, 3.0, 1.5]

最后将这些权重化后的值向量求和，得到第一个字的输出

  [0.0, 0.0, 0.0]
+ [1.0, 4.0, 0.0]
+ [1.0, 3.0, 1.5]
-----------------
= [2.0, 7.0, 1.5]

对其它的输入向量也执行相同的操作，即可得到通过 self-attention 后的所有输出

在上面的例子中，你只需要把向量变成矩阵的形式，就可以一次性得到所有输出，这也正是 Attention 公式所包含的具体意义：

Multi-Head Attention

同时，论文又进一步提出了 Multi-Head Attention 的概念。简而言之，就是hhh个 Self Attention 的集成。在 Self Attention 中，我们通过定义一组

来对上下文进行学习，而 Multi-Head Attention 就是通过定于多组

，分别对不同位置的上下文进行学习：

Add & Norm

在 Add & Norm 层中，分为两部分：残差连接和标准化。下图展示了具体的细节：

残差连接

残差连接将输出表述为输入和输入的一个非线性变换的线性叠加，通常用于解决多层网络训练的问题：

具体来说在 Transformer 中则是：

标准化

Norm指 Layer Normalization，将隐藏层归一为标准正态分布，以加速收敛。

Feed Forward

Feed Forward 层比较简单，是一个两层的全连接网络，第一层的激活函数是 ReLU，第二层无激活函数：

Transformer Encoder 整体结构

经过上面各个部分的解读，我们基本了解了 Encoder 的主要构成部分，现在简单做个小结：

生成词向量并进行位置编码

自注意力机制

残差连接与标准化

Feed Forward

残差连接与标准化

将输出送入 Decoder

Transformer Decoder

Transformer 的 Decoder block 结构，与 Encoder block 相似，但还是存在一些区别：

包含两个 Multi-Head Attention 层。
- 第一个 Multi-Head Attention 层采用了 Masked 操作。
- 第二个 Multi-Head Attention 层的

使用 Encoder 的输出，

使用上一个 Decoder block 的输出计算。

最后使用 softmax 计算下一个词的概率。

Masked Multi-Head Attention

Masked Multi-Head Attention 这里的 Masked 简而言之就是对数据进行遮挡，那么为什么要进行这个操作呢？

在进行 decoder 时，模型的输入是包含全部单词的所有信息的，但是对于翻译任务而言，它的流程是顺序进行的，即处理完第

个单词之后，才可以处理第

个单词，这也就意味着在处理第iii个单词的时候，模型是不应该知道第

个单词之后的信息的，否则就是信息泄露了。因此，这里进行 Mask 的作用就是对这部分信息进行遮挡。

Decoder Multi-Head Attention

第二个 Multi-Head Attention 层的结构与前面讲的基本相同，唯一的不同就是

使用 Encoder 的输出，

使用上一个 Decoder block 的输出计算，后续的计算方法与之前描述的一致。

softmax

最后的最后，就是进行 softmax，输出概率最高的单词。

PyTorch 实现

EmoryHuang/nlp-tutorial

总结

整体来说，Transformer 的结构还是非常巧妙的，完全抛弃了 CNN 和 RNN，仅仅使用 Self-Attention 进行特征提取，并且还做到了更好的效果。更可贵的是，各种基于 Transformer 架构的模型仍层出不穷，在各个领域均得到了用武之地。

参考资料

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2022-06-14，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

神经网络

深度学习

人工智能

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

鹅厂写码13年，我总结的程序员高效阅读方法论

jquery的入口函数是在html所有标签都加载后才执行，而JavaScript的window.onload事件是等到所有内容加载完后才执行。

达达前端

2019/07/03

2.6K0

jQuery基础图文系列

jquery html javascript css php

jquery的入口函数是在html所有标签都加载后才执行，而JavaScript的window.onload事件是等到所有内容加载完后才执行。

菲宇

2019/07/31

4.5K0

【一起来烧脑】读懂JQuery知识体系

jquery html javascript ajax 编程算法

在现在就业的过程中，会运用JQuery是你的加分项，那么什么是JQuery，嗯，jquery是JavaScript的函数库，是一种轻量级的JavaScript库，写得少，做的多，导致jQuery有很多技术人员在使用它做项目。

达达前端

2019/07/16

2.6K0

JavaScript学习笔记（四）—— jQuery入门

jquery ide html

子元素伪类选择器就是选择某一个元素下面的子元素的方式，在jQuery中，子元素伪类选择器分为两大类：

wsuo

2020/07/31

11.2K0

JQuery基础

其他

学习jQuery的时候，很快过了一遍，发现好多知识点不清晰。看来还是要写出来加深印象，平时多练习！ jQuery是一个Javascript函数库，轻量级，“写得少，做的多！”，它有以下功能： HTML元素选取 HTML元素操作 CSS操作 HTML事件函数 JavaScript特效和动画 HTML DOM遍历和修改 AJAX Utilities（实用工具）很多大公司都在使用jQuery:Google,Microsoft,IBM等。jQuery兼容所有主流浏览器，包括IE6（不失为解决兼容性的一种方法）。

用户1149564

2018/01/11

4.7K0

配合JQuery练习

其他

<!-- <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv="X-UA-Compatible" content="ie=edge"> <script type="text/javascript" src="http://ajax.microso

仇诺伊

2018/09/12

8950

python web开发 jQuery基础

jquery https ide 网络安全 html

大多数情况下， jQuery 函数位于 document ready 函数中，防止没有加载完成就对不存在的元素进行操作

Michael阿明

2022/01/07

4.3K0

jQuery Cheat—Sheet（jQuery学习笔记）

jquery java

jQuery Cheat—Sheet（jQuery学习笔记） Web前端学习笔记之——jQuery学习笔记 ---- 什么是jQuery？ jQuery是一种JavaScript库，实现了常见任务的自动化和复杂任务简单化。 jQuery库为Web脚本编程提供了通用的抽象层，使之适合任何脚本编程情景。 jQuery能满足以下需求：取得文档中的元素、修改页面外观、改变文档内容、响应用户的交互操作、为页面添加动态效果、不刷新加载、简化常见的JavaScript任务。 ---- jQuery版本？

李郑

2018/03/01

16.3K0

jQuery 简介

函数事件数据 jquery 遍历

https://www.runoob.com/jquery/jquery-syntax.html

zhangjiqun

2024/12/17

920

jQuery基础

jquery javascript

一 jQuery是什么？［1］ jQuery由美国人John Resig创建，至今已吸引了来自世界各地的众多 javascript高手加入其team。［2］ jQuery是继prototype之后又一个优秀的Javascript框架。其宗旨是——WRITE LESS,DO MORE! ［3］它是轻量级的js库(压缩后只有21k) ，这是其它的js库所不及的，它兼容CSS3，还兼容各种浏览器［4］ jQuery是一个快速的，简洁的javaScript库，使用户能更方便地处理HTMLdo

用户1214487

2018/01/24

2.1K0

jQuery学习笔记

jquery ajax 编程算法

jQuery函数位于一个document ready函数中，我们需要在js中加载该函数文档

Mirror王宇阳

2020/11/13

7.5K0

jQuery1.jQuery简介及使用2.jQuery语法3.jQuery选择器4,jQuery 事件函数及效果显示

jquery java html ajax

jQuery 是一个 JavaScript 库。 jQuery 极大地简化了 JavaScript 编程。(write less,do more.)

Python攻城狮

2018/08/23

2.3K0

jQuery1.jQuery简介及使用2.jQuery语法3.jQuery选择器4,jQuery 事件函数及效果显示

Web前端JQuery入门实战案例

php

快速的，轻量级的，功能丰富的 js 库。动画(animation)，ajax，DOM，更简单，容易使用的api。

达达前端

2019/07/03

4K0

HTML5+CSS3+JavaScript从入门到精通-21

javascript jquery

HTML5+CSS3+JavaScript从入门到精通作者：王征，李晓波第二十一章 JavaScript的框架库jQuery 案例 21-01 jQuery的使用 <!DOCTYPE html>   <html> <head> <meta charset="utf-8" /> <title>jQuery的使用</title> <script src="jquery-1

qiqi_fu

2021/12/06

3.1K0

前端学习之jQuery

jquery java html

［1］ jQuery由美国人John Resig创建，至今已吸引了来自世界各地的众多 javascript高手加入其team。

超蛋lhy

2018/08/31

3.2K0

jquery中html、before、after、append、prepend应用

jquery html

<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <title>jquery_slip.html</title> <script type="text/javascript" src="jquery.js"></script> <script type="text/javascript"> $(docum

闵开慧

2018/03/30

1.6K0

JQuery的学习

javascript jquery sql

JQuery基础： 1. 概念： * 一个JavaScript框架，简化JS开发。 * jQuery是一个快速、简洁的JavaScript框架，是继Prototype之后又一个优秀的JavaScript代码库（或JavaScript框架）。jQuery设计的宗旨是“write Less，Do More”，即倡导写更少的代码，做更多的事情。它封装JavaScript常用的功能代码，提供一种简便的JavaScript设计模式，优化HTML文档操作、事件处理、动画设计和Ajax交互。 * JavaScript

Rochester

2020/09/01

16.7K0

jQuery

jquery ide html go seo

jquery 语法是为HTML元素的选取编制的，可以对元素执行某些操作。基础语法就是：$(selector).action()

仇诺伊

2018/09/12

4.3K0

jQuery 教程

html html5 ajax 编程算法 jquery

菜鸟教程 — jQuery 教程：https://www.runoob.com/jquery/jquery-tutorial.html

全栈程序员站长

2022/09/03

17.1K0

04 . 前端之JQuery

jquery cdn jquery ui html 编程算法

JQuery简介 # 1. jQuery是一个轻量级的、兼容多浏览器的JavaScript库。 # 2. jQuery使用户能够更方便地处理HTML Document、Events、实现动画效果、方便

iginkgo18

2020/09/27

3.5K0

【论文阅读】Attention is all you need

【论文阅读】Attention is all you need

【论文阅读】Attention is all you need

Metadata

前言

Overview

Transformer Encoder

Model Architecture

Position Encoding

Self Attention

Multi-Head Attention

Add & Norm

残差连接

标准化

Feed Forward

Transformer Encoder 整体结构

Transformer Decoder

Masked Multi-Head Attention

Decoder Multi-Head Attention

softmax

PyTorch 实现

总结

参考资料

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐