torch.nn.MultiheadAttention中的查询Q、键K和值V向量/矩阵应该是什么？

、、、

我有需要相互影响的n-vectors，并输出同维d的n向量。我相信这就是torch.nn.MultiheadAttention所做的。但前向函数查询、键和值作为输入。根据博客，我需要为每个q、k和v初始化形状(d x d)的随机权重矩阵，并将每个向量与这些权重矩阵相乘，得到3个(n x d)<

浏览 1提问于2021-01-09得票数 5

回答已采纳

1回答

、

<code>D2</code>模块的前向传递的输入包括<code>D3</code> (查询向量)、<code>D4</code> (键向量)和<code>D5</code> (值向量)。奇怪的是，PyTorch不会只接受输入嵌入，并在内部计算<code>D6<&#

浏览 122提问于2020-08-04得票数 1

回答已采纳

1回答

了解变压器结构中不同地方矢量的尺寸

、、、

我试着从“关注是你所需要的一切”的角度来理解变压器架构。它说，关于不同向量的维数如下：输入由维度d_k的查询和键以及维度d_v的值组成。MultiHead(Q, K, V ) = Concat(head_1, ..., head_h) W^O where head_i = Attention(QW_i^Q,

浏览 0提问于2023-04-18得票数 0

1回答

我理解变压器体系结构(从“注意就是你所需要的”)，以及如何在多头注意力层中计算注意力。我感到困惑的是，为什么注意力层的输出是上下文向量。也就是说:变压器的训练方式如何使注意力层学习上下文？我希望在这篇论文中看到的是这样一个道理：“当你训练一个变压器时，当你把注意力集中在顺序到顺序的任务上时，注意力层就会学习上下文，这就是为什么……”。我相信这是因为我看到了显示相关单词之间的注意的热图，但我想了解为什么这必然是训练变压器的</

浏览 0提问于2020-11-12得票数 1

3回答

Q，K，V向量是如何训练变压器自我注意的？

、、、、

我对变压器很陌生，所以这可能是个愚蠢的问题，但我读到了变压器以及它们如何使用注意力，这涉及到三个特殊向量的使用。大多数文章说，在阅读了他们如何被用于关注的文章之后，人们就会明白他们的目的。我相信我理解他们所做的，但我不确定他们是如何被创造出来的。我知道它们来自于输入向量乘以三个相应的权重，但我不知道这些权重是如何推导出来的。他们是随机选择和训练像一个标准的神经网络，如果是的话，如

浏览 0提问于2020-02-17得票数 5

2回答

分裂成多个头--多头自我关注

、、、

所以，我怀疑你所需要的是：每个多头注意块得到三个输入:Q(查询)、K(键)、V(值).这些都是通过线性(密集)层和分裂成多个头部。然而，该文件提到：与使用dmodel维键、值和查询执行单一的注意函数不同，我们发现用不同的、学习到的线性投影分别对dk、dk<

浏览 0提问于2020-08-22得票数 1

2回答

理解变压器的自重计算

、

utm_source=blog&utm_medium=demystifying-bert-groundbreaking-nlp-framework#comment-160771变压器模型自重计算中的键值、值值是多少？查询向量是被查询的单词的嵌入向量，对吗？在RNN中计算注意力是否与变压器中的自我注意不同？

浏览 0提问于2020-11-09得票数 0

1回答

numpy中元素矩阵运算的推广

、、

假设我有两组由3xn阵列V和W表示的n向量，以及由3x3xn数组Q表示的n个矩阵集。( a) k在(N)范围内的n个向量Q[:,:,k]*V[:,k]集 ( b) k(N)的n个标量W[:,k].T*Q[:,:,k]*V[:,k</

浏览 2提问于2015-04-20得票数 2

回答已采纳

2回答

为什么BERT中的矩阵被称为查询、键和值？

、、、、

在的变压器单元中，有一些模块称为查询、键和值，或者简单地称为Q、K、V。基于伯特和 (特别是在中)，我对单个注意头的注意模块(使用Q、K、V)向前通过的伪码理解如下：k_param = a<e

浏览 0提问于2019-06-25得票数 3

回答已采纳

1回答

注意机制中的线性层是如何工作的？

、、、

我想我现在已经回答了我的问题，但我并没有得到证实。当查看“注意就是你所需要的一切”中的多头-注意块时，我们可以看到，在键、查询和值矩阵上有三个线性层。然后在最后加一层，将其应用于分数矩阵的矩阵乘法的输出和数值。开始时的三个线性层:当带有形状的键/查询/值(

浏览 0提问于2021-01-22得票数 0

回答已采纳

5回答

变压器模型中自我注意的计算复杂性

、、、、

在本文的表1中，作者比较了不同序列编码层的计算复杂性，以及当序列长度n小于向量表示d的维数时，自关注层快于RNN层的状态。线性转换X的行以计算查询Q、键K和<em

浏览 8提问于2021-01-13得票数 30

1回答

理解key_dim和num_heads在tf.keras.layers.MultiHeadAttention中的应用

、、、、

output, [1, 10000]) return output 因此，该层可以与任何num_heads和key_dim一起工作，但是序列长度(即1000)应该可以被num_heads整除。例如，Pytorch的相同代码不起作用。还有，什么是key_dim那么..。提前谢谢。

浏览 0提问于2021-11-19得票数 3

回答已采纳

2回答

与给定向量构成正交基的矩阵

、、、

一个线性代数问题；提前谢谢你，

浏览 0提问于2010-06-29得票数 3

回答已采纳

2回答

在clojure中使用map替换向量

我有一个矢量和一张地图。如果向量元素是映射键，则需要替换它(用值替换键)#'user/v#'user/m [:<em

浏览 3提问于2015-01-25得票数 4

回答已采纳

4回答

使用Numpy (np.linalg.svd)进行奇异值分解

、、

我正在阅读Abdi & Williams (2010)“主成分分析”，我正在尝试重新做SVD以获得进一步PCA的值。文章指出，以下SVD：我将数据加载到np.array X中。X = np.array(data)D = np.diag(D)X_a和</em

浏览 5提问于2014-07-23得票数 22

回答已采纳

1回答

定义以向量作为内键和外键的字典字典

、

我必须定义一个巨大的稀疏矩阵，其中矩阵的行索引是大小为5的5向量，矩阵的列索引也是大小为5的向量。更具体地说，要检索这个矩阵中的一个元素，我需要知道两个向量：一个是行的向量，我们称之为(i,j,k,l,m)。.,10, k=1,...,10, l=1,...,10, m

浏览 5提问于2013-07-08得票数 1

回答已采纳

2回答

如何求三对角Toeplitz矩阵的实特征值和特征向量？

、、、、

我构造了一个100*100矩阵k，并希望使用numpy.linalg.eig对角化它。k=np.zeros((100,100))np.fill_diagonal(k[1:,:-1],1.5)当我尝试更小的矩阵时，例如特征值w<

浏览 1提问于2018-02-27得票数 2

1回答

用R码编写Householder QR分解函数

、、

我正在编写一段代码，以求R中矩阵的QR分解。% t(a_r) %*% A[k:n,k:p] }QH = Q - 2 (Qv) v</

浏览 3提问于2016-10-04得票数 3

回答已采纳

1回答

用于潜在语义分析的“预构建”矩阵

、、、

我想为我正在构建的一个小应用程序使用潜在的语义分析，但我不想自己构建矩阵。(部分是因为我的文档不会成为一个很好的培训藏书，因为它们比较短，而且很复杂，还有一部分原因是我刚刚买了一台新电脑，我发现安装线性代数和这样的库是个麻烦。) 缺省U，S，V矩阵(即，如果D是某个训练集的项-文档矩阵</

浏览 1提问于2010-11-06得票数 2

回答已采纳

2回答

如何在Matlab中使用带有自定义内核的svmtrain()？

、

svmtain()是MATLAB中支持向量机学习的函数。帮助医生来了：函数K= kfun(U，V) 它没有提到U和V

浏览 1提问于2012-12-22得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对nn.MultiheadAttention的输入？