首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么在“变形金刚”中使用多头注意力?

为什么在“变形金刚”中使用多头注意力?
EN

Stack Overflow用户
提问于 2021-02-17 14:38:34
回答 1查看 644关注 0票数 4

我试图理解为什么变压器使用多个注意头。我发现了下面的报价

变压器使用的是多个注意力头,而不是使用单一的注意力函数,即注意力可以由实际单词本身支配。

什么是“注意力被单词本身所支配”,使用多个头是如何解决这个问题的?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-02-18 12:18:15

由于观察到不同的词以不同的方式相互关联,所以引入了多头关注。对于一个给定的词,句子中的其他词可以起到调节或否定意义的作用,但也可以表达继承(是一种)、占有(属于)等关系。

我发现这个在线讲座非常有用,并给出了下面的例子:

“这家餐厅并不是太可怕的。”

请注意,“糟糕”一词的含义被“太”和“不”(也是:适度,不是:倒置)和“糟糕”这两个词扭曲了,因为它表达了一种属性。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66244123

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档