CUBLAS转置矩阵乘法问题

、、、

我正在尝试在CUBLAS中倍增C = At * B。问题是，在我的代码中(取自 )，在一些矩阵维度中，它似乎工作得很好，int rows_a = 1, cols_a = 200, rows_b = 1, cols_b = 200。在我的代码中，我设置了两个矩阵，然后用CUBLAS函数cublasSgemm做乘法，之后，我用一些CPU函数做同样的矩阵乘法，以检查它是否正常。rows_b * cols_b * sizeof(float)); flo

浏览 12提问于2019-11-14得票数 0

回答已采纳

1回答

利用cuBlas实现转置矩阵的高效乘法

、、

当一个大的稠密矩阵与它的转置相乘时，是否有一种有效的使用cuBlas的方法？具体而言，是否有任何函数利用结果矩阵是对称的这一事实，从而将乘法次数减少到~2的倍数。

浏览 3提问于2016-04-22得票数 0

回答已采纳

1回答

如何使用blas以最佳方式转置矩阵？

、、、

然而，我遇到了一个问题。我正在测试cuBlas，在图形处理器上做linAlg看起来是个好主意，但有一个问题。使用列主格式的cuBlas实现，由于这不是我最终需要的，我很好奇是否有一种方法可以让BLAS进行矩阵转置？

浏览 1提问于2011-10-16得票数 10

回答已采纳

1回答

CUBLAS矩阵加法..多么?

、、、、

我正在尝试使用CUBLAS对两个大的未知大小的矩阵求和。我需要一个完全优化的代码(如果可能)，所以我选择不重写矩阵加法代码(简单)，而是使用CUBLAS，特别是允许对A和C求和的cublasSgemm函数(如果B是单位矩阵)：*C =α*op(A)*op(B)+β*c* 问题是:C和fortran以行为主的格式存储矩阵，cublasSgemm旨在(为了与C++兼容)以列为主的格式工作。您可以指定是否先转置A和B，但不能指定转<

浏览 1提问于2011-03-26得票数 3

回答已采纳

1回答

用CUDA计算(A (D^-1)B^T )^-1

、、、、

(A (D^-1)B^T )^-1 其中，D是一个很大的对称矩阵，A是一个小对称矩阵，使得B和B^T中等大小的矩形非对称矩阵。当然，(^-1)和(^T)分别是逆运算和转置运算。

浏览 4提问于2013-08-17得票数 0

1回答

cuBLAS howto中的转置矩阵乘法

、、、、

问题很简单:我有两个矩阵，A和B，它们是M乘以N，其中M >> N。我想首先取A的转置，然后乘以B (A^T * B)，将其乘以C，即N乘以N。我知道cuBlas有一个cublasOperation_t枚举，用于预先转置内容，但不知何故，我没有完全正确地使用它。我的矩阵A和B是以行为主的顺序，即row1 row3 .....在设备内存中。这意味着A要被解释为A-转置，BLAS需要知道我的A是以列为主的顺序

浏览 1提问于2013-01-30得票数 4

1回答

计算矩阵乘以其转置的有效算法

、、、

对于一堂课，老师提出的一个问题是矩阵乘以转置的算法成本。用标准的3环矩阵乘法算法，效率为O(N^3)，我想知道是否有一种方法来操纵或利用矩阵*矩阵转置，从而得到一个更快的算法。我知道，当你把一个矩阵乘以它的转置时，由于它是对称的，你必须计算它的较少，但我想不出如何操作一个小于O(n^3)的算法。我知道像Coppensmith和Straussen这样的算法是更快的一

浏览 4提问于2011-09-28得票数 10

1回答

CUBLAS通用矩阵点积

、、、

我编写了一个struct和一些包装"CUBLAS矩阵对象“的函数。typedef struct { uint cols;} matrix;matrixmatrix_free(matrix* w) cudaFree(w->devPtrvals); return 1;函数，该函数从浮点数数组中设置矩阵的值return 1;我有一个<e

浏览 4提问于2013-10-23得票数 1

回答已采纳

1回答

二维转置卷积可以表示为Toeplitz矩阵乘法吗？

、、、、

二维转置卷积运算是否可以表示为与Toeplitz矩阵的矩阵乘法，就像普通卷积一样？我想将一些想法从密集网络推广到卷积网络。对于正常的卷积，这不是问题，因为它们可以表示为与Toeplitz矩阵的矩阵乘法。但我找不到转置卷积的清晰数学公式，所以我不确定这种情况。

浏览 26提问于2019-07-04得票数 1

1回答

一种利用转座子加速cuSPARSE稀疏密乘的方法

、、、

我使用垫子解析和cublas计算一个稀疏密乘法:C=A‘* B。A是M*N稀疏矩阵M= 9,633,792，N= 617,004，nnz为28,901,376，S=3 A‘= At以CSR格式存储，使用cusparseScsrmm2计算At *( B’)‘，转置B以改善矩阵B的内存访问，根据文档，如果op(B) = B^T，只支

浏览 3提问于2016-07-03得票数 2

4回答

如何在CUDA/cublas中转置矩阵？

、、、、

假设我在图形处理器上有一个维度为A*B的矩阵，其中B (列数)是假设C样式的领先维度。在CUDA (或cublas)中有没有什么方法可以将这个矩阵转置到FORTRAN风格，其中A (行数)成为前导维度？如果在host->device传输过程中可以在保持原始数据不变的情况下进行转置，那就更好了。

浏览 1提问于2012-12-09得票数 5

回答已采纳

1回答

利用CUDA指针反演库达矩阵

、、

目前，我只是尝试在基于cuBLAS的简单线性回归算法的基础上与数据自动化系统实现。矩阵乘法和转位与cublasSgemm函数很好地结合。问题从基于cublas<t>getrfBatched()和cublas<t>getriBatched()函数的矩阵反转开始(参见)。可以看到，输入这些函数的参数--指向矩阵的指针数组。想象一下，由于先前的计算，我已经为GPU上的(A^T * A)矩阵分配了内

浏览 1提问于2015-08-21得票数 1

回答已采纳

3回答

在CUDA中转置矩阵的最有效方法是什么？

、

我有一个M*N主机内存矩阵，在复制到设备内存中时，我需要将其转置为N*M矩阵。有没有什么cuda (cuBLAS...)API会这么做吗？我正在使用CUDA 4。谢谢！

浏览 0提问于2013-03-17得票数 3

回答已采纳

1回答

如何避免矩阵本身对矩阵乘法的奇异性

、

我用Mathematica编写了下一个代码，以求矩阵本身转置矩阵的乘法逆：B = A\[Transpose].A;F // MatrixForm 它总是告诉我，矩阵(B)是奇异的，-despite (A)是随机的，而矩阵的转置乘法是可以的！RandomInteger[{1, 20}, {3

浏览 16提问于2021-10-31得票数 1

回答已采纳

3回答

用它的转置来乘一个大而稀疏的矩阵的最佳方法是什么？

、、、、

我现在想用它的转置来乘一个大型稀疏矩阵(~1M×200 k)。结果矩阵的值将以浮点数表示。矩阵的乘法及其转置。因此，得到的矩阵是

浏览 7提问于2014-07-04得票数 10

回答已采纳

2回答

在CUDA上测量有效带宽

、、

所以我想知道如何计算总内存有效带宽：其中该函数适用于cublas_v2.h 该函数的运行时间为

浏览 0提问于2013-02-19得票数 1

回答已采纳

2回答

两个下三角矩阵乘法的复杂性

、、

我知道两个全矩阵乘法的下界是Ω(n^2)。我最初的想法是：(1)对下三角矩阵进行变换，(2)估计这种变换的时间复杂度。full_matrix_multiplication(n)) = Ω(n^2) 现在，我只需要证明O(lower_triangular_matrix_transformation(n))，我需要使三角矩阵成为一个完整的矩阵，所以为了简单起见，我让这个三角矩阵乘以

浏览 2提问于2016-03-11得票数 11

1回答

使用这个命令`np.linalg.eig(HH)`来计算特征分解是否合适？*

、、

我正在学习这个post和这个post。我试图用Python，NumPy将计算结果重现为这个post。 H = np.array([[0.1, 0.3, .4],[0.5 , 0.5, 0.9],[0.1, 0.4, 0.5]])w, v = np.linalg.eig(H*H) 与此post相比，np.linalg.eig(H*H)给出的结果截然不同。为什么会这样呢？

浏览 40提问于2019-06-24得票数 3

1回答

用本征乘积XX.transpose()的最快方法？*

、、

我想要多个自转置矩阵。关于X8,100的矩阵的大小。现在它看起来是“MatrixXf h= X*X.transpose()” ( c)有关该等矩阵的快速乘法的任何提示。

浏览 4提问于2014-07-31得票数 1

回答已采纳

1回答

Java箭头转换- Box2d

、、

我想做的就是当箭头撞上一个盒子时，我找到了一个教程，但它是在C++中，我找不到解决这个问题的方法。实际上这是一道数学题。问题是Java中没有b2MulT或b2Mul函数。当碰撞发生时，我想用旧箭头的值的位置和角度来转换箭头。

浏览 0提问于2014-06-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

利用cuBlas实现转置矩阵的高效乘法

如何使用blas以最佳方式转置矩阵？

CUBLAS矩阵加法..多么?

用CUDA计算(A (D^-1)B^T )^-1

cuBLAS howto中的转置矩阵乘法

计算矩阵乘以其转置的有效算法

CUBLAS通用矩阵点积

二维转置卷积可以表示为Toeplitz矩阵乘法吗？

一种利用转座子加速cuSPARSE稀疏密乘的方法

如何在CUDA/cublas中转置矩阵？

利用CUDA指针反演库达矩阵

在CUDA中转置矩阵的最有效方法是什么？

如何避免矩阵本身对矩阵乘法的奇异性

用它的转置来乘一个大而稀疏的矩阵的最佳方法是什么？

在CUDA上测量有效带宽

两个下三角矩阵乘法的复杂性

使用这个命令`np.linalg.eig(HH)`来计算特征分解是否合适？*

用本征乘积XX.transpose()的最快方法？*

Java箭头转换- Box2d

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐