前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Attention Is Not All You Need

Attention Is Not All You Need

作者头像
McGL
发布2021-03-15 16:52:18
7890
发布2021-03-15 16:52:18
举报
文章被收录于专栏:PyVisionPyVision

2017年的论文 《Attention is All You Need》 引入了基于注意力机制的 transformer 架构,标志着机器学习有史以来最大的突破之一。最近的一项研究提出了一种新的方法来研究自注意力(self-attention),它的偏置(bias)和秩崩溃(rank collapse)问题。

在自然语言处理(NLP)、语音识别以及最近的计算机视觉领域,基于注意力的结构已经被证明是改进机器学习应用的有效方法。但是关于 transformer 和注意力内部通用原理的研究很少。

在论文 《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》 中,Google 和洛桑联邦理工学院的一个研究团队提出了一种新的方法,阐明了自注意力网络(SAN)的操作和归纳偏置,并发现纯粹注意力随着深度以双倍指数方式衰减。

研究人员总结他们的工作如下:

  1. 系统地研究了 transformer 的组成部分,揭示了自注意力和反作用力之间的对立影响: 跳过连接(skip connection)和 MLP,分别促进和防止了 transformer 的秩崩溃。
  2. 提出了一种通过路径分解(path decomposition)分析 SAN 的新方法,将 SAN 表示为一个浅层网络的集合(ensemble)。
  3. 在普通 transformer 结构上实验来验证理论。

研究小组首先研究了禁用了跳过连接和 MLP 的 SAN 结构。他们认为 SAN 是一个有向无环图(directed acyclic graph),每个节点对应一个自注意力头,定向边连接连续层的头。在此基础上,他们建立了一个路径分解(path decomposition)来把一个多头 SAN 的行为描述为简单单头网络的组合。通过路径相互作用,他们观察到偏置意义不大,而且每个路径迅速收敛到一个行相同的秩为1的矩阵。当路径以指数方式增加时,有趣的部分来了: 每个路径随后以双倍指数(doubly exponentially)方式退化,导致产生一个秩为1的输出。

研究人员分别考虑了每条路径的行为,检查了前向过程中的残差变化(residual changes)。他们发现残差范数(residual norm)收敛到零的速度惊人地快(以立方倍率)。由于注意力矩阵的秩也取决于输入的秩,所以确认的立方倍率收敛速度比预期的要快得多。换句话说,更深的 SAN 会导致级联效应(cascading effect)。

为了更深入地理解 SAN 的结构,研究小组通过加入 SAN 缺少的三个关键 transformer 组件(跳过连接、 MLP 和层归一化(normalization))来扩展他们的分析。这项研究表明,带有启用跳过连接的 SAN 严重依赖短路径,表现得像一个浅层单头自注意力网络的集合。研究小组还发现,MLP 会抵消收敛,比如,随着 MLP 变得更强大,收敛速度会变慢; 而层归一化并不能减轻秩的崩溃。

研究小组进行了以下实验:

  1. 实际架构中的秩崩溃,检查流行的 transformer 架构 BERT、 Albert 和 XLNet 的残差。
  2. 可视化不同架构的偏置,研究单层 transformer 在循环应用于预测简单的 2D 循环序列时的行为。
  3. 通过序列记忆、学习排序和凸包(Convex hull)预测三个任务检验路径效率与路径长度的关系。

实验1的结果。三种模型训练前后沿深度残差的相对范数。纯注意力(SAN)迅速收敛到一个秩为1的矩阵。添加 MLP 块和跳过连接得到一个 transformer。跳过连接在缓解秩崩溃(即零残差)方面起着关键作用。

实验2的结果。将训练好的单层 transformer 模块循环应用于增加隐藏维度(水平方向)和跨结构变量(垂直方向)的模型中。两条光背景路径显示了两条训练轨迹,起始点分别为(-0.3, 0)和(0.3, 0)

实验3的结果。报告了每个令牌标签的测试集预测精度作为评价指标。为了确定有多少表达能力可以归因于短路径和长路径,研究人员检查了不同长度的路径子集(而不是整个 SAN)的性能。

第一个实验证实,当跳过连接被删除时,所有网络都会出现快速秩崩溃,而第二个实验表明,添加 MLP 或跳过连接可以阻止或大大减缓秩崩溃。最后一个实验支持了研究人员的假设,即 SAN 的表达能力主要来自短路径。

arXiv 论文地址:https://arxiv.org/pdf/2103.03404.pdf

原文:https://medium.com/syncedreview/attention-is-not-all-you-need-google-epfl-study-reveals-huge-inductive-biases-in-self-attention-fa3cdd060abe

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PyVision 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档