首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >变压器多头注意机制及前馈神经网络的需求

变压器多头注意机制及前馈神经网络的需求
EN

Data Science用户
提问于 2019-07-14 14:37:51
回答 1查看 2K关注 0票数 10

看完报纸后,注意力就是你所需要的,我有两个问题:

1.多头注意力机制的需要是什么?

该文件说:

多头关注使模型能够在不同位置联合处理来自不同表示子空间的信息

我的理解是,这有助于解决回指问题。例如:“动物没有过马路,因为它太.(累/宽)”。在这里,"it“可以指基于最后一个词的动物或街道。我的疑问是,为什么一个人的注意力都不能在一段时间内学会这个联系呢?

2.我也不明白在变压器的编码器模块中需要前馈神经网络。

谢谢你的帮助。

EN

回答 1

Data Science用户

发布于 2019-07-15 20:04:00

  1. 我认为,最基本的理由是增加产能。虽然从理论上讲,单头是可能的,但使用多重只会使它更容易。更具体地说,论文说(pg 4):多头关注允许模型联合处理来自不同位置的不同表示子空间的信息。用一个单一的注意力头,平均抑制这一点。换句话说,对于一个给定的层,只有一个注意头,该机制所执行的加权平均阻止您能够从该单层内输入的多个区域访问(不同转换的)信息。我认为可以通过使用多个层来减轻这种情况,但是添加此功能只会增加单个层的容量,因此您可以使用更少的层执行更有用的计算。这通常是好的,因为堆叠层(功能组合)可能导致比并行化层更多的问题(就像多头一样),特别是在梯度计算方面。(这也是剩余/跳过连接如此有用的部分原因)。一般来说,在基于注意力的模型中,使用多头是提高代表性的一种常见方法,例如,请参阅Velickovic等人的“图注意网络”。其基本思想是,虽然注意力可以让你“专注”于更相关的信息,而忽略无用的噪音,但它也可以消除有用的信息,因为通常通过注意力机制使它的信息量是相当有限的。使用多个头给你空间让更多的通过。
  2. 想必你是在问“位置前馈网络”的问题。再一次,我认为这仅仅是一个模型容量的问题:模型可以在没有这些层的情况下工作,但也可能没有。这些层之所以有趣,是因为它们本质上是一维卷积,通常出现在计算机视觉体系结构(我更熟悉的)网络或块的末尾附近。换句话说,它们是跨输入(空间)进行相同操作的本地化转换。其推理通常是,前面的层(这里是注意层;在视觉中,内核大小较大的conv层)对于跨输入在空间上传递或混合信息是合理的。例如,在注意层之后,每个位置的潜在表示包含来自其他位置的信息。然而,在此之后,我们要巩固每个职位的“独特”代表性(当然,其他立场已被告知)。我们通过不考虑邻居或其他位置的局部化层进行处理来实现这一点,并且只需自己转换本地表示。需要记住的一件事是,虽然我们希望信息在“空间”(例如,跨图像或句子)之间混在一起,但对于许多任务,我们仍然需要每个位置来保持与其原始身份的某种相似/联系(而不是仅仅平均所有位置上的所有信息)。因此,并不是每一层都需要空间感知。在视觉模型中,一维卷积(即核宽度1)常被用来进行维数约简;在这种情况下,维数似乎没有变化。
票数 7
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/55647

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档