腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对nn.MultiheadAttention
的
输入?
、
、
、
我有需要相互影响
的
n-vectors,并输出同维d
的
n
向量
。我相信这就是
torch.nn.MultiheadAttention
所做
的
。但前向函数
查询
、
键
和
值
作为输入。根据博客,我需要为每个
q
、
k
和
v
初始化形状(d x d)
的
随机权重
矩阵
,并将每个
向量
与这些权重
矩阵
相乘,得到3个(n x d)<
浏览 1
提问于2021-01-09
得票数 5
回答已采纳
1
回答
torch.nn.MultiheadAttention
中
的
查询
Q
、
键
K
和
值
V
向量
/
矩阵
应该
是什么
?
、
<code>D2</code>模块
的
前向传递
的
输入包括<code>D3</code> (
查询
向量
)、<code>D4</code> (
键
向量
)
和
<code>D5</code> (
值
向量
)。奇怪
的
是,PyTorch不会只接受输入嵌入,并在内部计算<code>D6<
浏览 122
提问于2020-08-04
得票数 1
回答已采纳
1
回答
了解变压器结构
中
不同地方矢量
的
尺寸
、
、
、
我试着从“关注是你所需要
的
一切”
的
角度来理解变压器架构。它说,关于不同
向量
的
维数如下: 输入由维度d_
k
的
查询
和
键
以及维度d_
v
的
值
组成。MultiHead(
Q
,
K
,
V
) = Concat(head_1, ..., head_h) W^O where head_i = Attention(QW_i^
Q
,
浏览 0
提问于2023-04-18
得票数 0
1
回答
为什么变压器
中
的
注意层要学习上下文?
、
、
、
、
我理解变压器体系结构(从“注意就是你所需要
的
”),以及如何在多头注意力层中计算注意力。 我感到困惑
的
是,为什么注意力层
的
输出是上下文
向量
。也就是说:变压器
的
训练方式如何使注意力层学习上下文?我希望在这篇论文中看到
的
是这样一个道理:“当你训练一个变压器时,当你把注意力集中在顺序到顺序
的
任务上时,注意力层就会学习上下文,这就是为什么……”。我相信这是因为我看到了显示相关单词之间
的
注意
的
热图,但我想了解为什么这必然是训练变压器
的</
浏览 0
提问于2020-11-12
得票数 1
3
回答
Q
,
K
,
V
向量
是如何训练变压器自我注意
的
?
、
、
、
、
我对变压器很陌生,所以这可能是个愚蠢
的
问题,但我读到了变压器以及它们如何使用注意力,这涉及到三个特殊
向量
的
使用。大多数文章说,在阅读了他们如何被用于关注
的
文章之后,人们就会明白他们
的
目的。我相信我理解他们所做
的
,但我不确定他们是如何被创造出来
的
。 我知道它们来自于输入
向量
乘以三个相应
的
权重,但我不知道这些权重是如何推导出来
的
。他们是随机选择
和
训练像一个标准
的
神经网络,如果是的话,如
浏览 0
提问于2020-02-17
得票数 5
2
回答
分裂成多个头--多头自我关注
、
、
、
所以,我怀疑你所需要
的
是:每个多头注意块得到三个输入:
Q
(
查询
)、
K
(
键
)、
V
(
值
).这些都是通过线性(密集)层
和
分裂成多个头部。然而,该文件提到: 与使用dmodel维
键
、
值
和
查询
执行单一
的
注意函数不同,我们发现用不同
的
、学习到
的
线性投影分别对dk、dk<
浏览 0
提问于2020-08-22
得票数 1
2
回答
理解变压器
的
自重计算
、
utm_source=blog&utm_medium=demystifying-bert-groundbreaking-nlp-framework#comment-160771变压器模型自重计算
中
的
键值、
值
值
是多少?
查询
向量
是被
查询
的
单词
的
嵌入
向量
,对吗? 在RNN中计算注意力是否与变压器
中
的
自我注意不同?
浏览 0
提问于2020-11-09
得票数 0
1
回答
numpy中元素
矩阵
运算
的
推广
、
、
假设我有两组由3xn阵列
V
和
W表示
的
n
向量
,以及由3x3xn数组
Q
表示
的
n个
矩阵
集。( a)
k
在(N)范围内
的
n个
向量
Q
[:,:,
k
]*
V
[:,
k
]集 ( b)
k
(N)
的
n个标量W[:,
k
].T*
Q
[:,:,
k
]*
V
[:,
k</
浏览 2
提问于2015-04-20
得票数 2
回答已采纳
2
回答
为什么BERT
中
的
矩阵
被称为
查询
、
键
和
值
?
、
、
、
、
在
的
变压器单元
中
,有一些模块称为
查询
、
键
和
值
,或者简单地称为
Q
、
K
、
V
。基于伯特
和
(特别是在
中
),我对单个注意头
的
注意模块(使用
Q
、
K
、
V
)向前通过
的
伪码理解如下:
k
_param = a<e
浏览 0
提问于2019-06-25
得票数 3
回答已采纳
1
回答
注意机制
中
的
线性层是如何工作
的
?
、
、
、
我想我现在已经回答了我
的
问题,但我并没有得到证实。当查看“注意就是你所需要
的
一切”
中
的
多头-注意块时,我们可以看到,在
键
、
查询
和
值
矩阵
上有三个线性层。然后在最后加一层,将其应用于分数
矩阵
的
矩阵
乘法
的
输出和数值。开始时
的
三个线性层:当带有形状
的
键
/
查询
/
值
(
浏览 0
提问于2021-01-22
得票数 0
回答已采纳
5
回答
变压器模型
中
自我注意
的
计算复杂性
、
、
、
、
在本文
的
表1
中
,作者比较了不同序列编码层
的
计算复杂性,以及当序列长度n小于
向量
表示d
的
维数时,自关注层快于RNN层
的
状态。 线性转换X
的
行以计算
查询
Q
、
键
K
和
<em
浏览 8
提问于2021-01-13
得票数 30
1
回答
理解key_dim
和
num_heads在tf.keras.layers.MultiHeadAttention
中
的
应用
、
、
、
、
output, [1, 10000]) return output 因此,该层可以与任何num_heads
和
key_dim一起工作,但是序列长度(即1000)
应该
可以被num_heads整除。例如,Pytorch
的
相同代码不起作用。还有,什么是key_dim那么..。提前谢谢。
浏览 0
提问于2021-11-19
得票数 3
回答已采纳
2
回答
与给定
向量
构成正交基
的
矩阵
、
、
、
一个线性代数问题;提前谢谢你,
浏览 0
提问于2010-06-29
得票数 3
回答已采纳
2
回答
在clojure中使用map替换
向量
我有一个矢量
和
一张地图。如果
向量
元素是映射
键
,则需要替换它(用
值
替换
键
)#'user/
v
#'user/m [:<em
浏览 3
提问于2015-01-25
得票数 4
回答已采纳
4
回答
使用Numpy (np.linalg.svd)进行奇异
值
分解
、
、
我正在阅读Abdi & Williams (2010)“主成分分析”,我正在尝试重新做SVD以获得进一步PCA
的
值
。文章指出,以下SVD:我将数据加载到np.array X
中
。X = np.array(data)D = np.diag(D)X_a
和</em
浏览 5
提问于2014-07-23
得票数 22
回答已采纳
1
回答
定义以
向量
作为内
键
和
外
键
的
字典字典
、
我必须定义一个巨大
的
稀疏
矩阵
,其中
矩阵
的
行索引是大小为5
的
5
向量
,
矩阵
的
列索引也是大小为5
的
向量
。更具体地说,要检索这个
矩阵
中
的
一个元素,我需要知道两个
向量
: 一个是行
的
向量
,我们称之为(i,j,
k
,l,m)。.,10,
k
=1,...,10, l=1,...,10, m
浏览 5
提问于2013-07-08
得票数 1
回答已采纳
2
回答
如何求三对角Toeplitz
矩阵
的
实特征
值
和
特征
向量
?
、
、
、
、
我构造了一个100*100
矩阵
k
,并希望使用numpy.linalg.eig对角化它。
k
=np.zeros((100,100))np.fill_diagonal(
k
[1:,:-1],1.5)当我尝试更小
的
矩阵
时,例如特征
值
w<
浏览 1
提问于2018-02-27
得票数 2
1
回答
用R码编写Householder QR分解函数
、
、
我正在编写一段代码,以求R
中
矩阵
的
QR分解。% t(a_r) %*% A[
k
:n,
k
:p] }QH =
Q
- 2 (Qv)
v</
浏览 3
提问于2016-10-04
得票数 3
回答已采纳
1
回答
用于潜在语义分析
的
“预构建”
矩阵
、
、
、
我想为我正在构建
的
一个小应用程序使用潜在
的
语义分析,但我不想自己构建
矩阵
。(部分是因为我
的
文档不会成为一个很好
的
培训藏书,因为它们比较短,而且很复杂,还有一部分原因是我刚刚买了一台新电脑,我发现安装线性代数
和
这样
的
库是个麻烦。) 缺省U,S,
V
矩阵
(即,如果D是某个训练集
的
项-文档
矩阵</
浏览 1
提问于2010-11-06
得票数 2
回答已采纳
2
回答
如何在Matlab中使用带有自定义内核
的
svmtrain()?
、
svmtain()是MATLAB中支持
向量
机学习
的
函数。帮助医生来了: 函数
K
= kfun(U,
V
) 它没有提到U
和
V
浏览 1
提问于2012-12-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
注意力机制中的查询Q、键K、值V与态势感知
机器态势感知中的注意力机制
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
大语言模型的好坏是由您提示水平高底决定的
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券