如何使用cuda计算矩阵中每行元素的顺序？_如何在矩阵中找到唯一的行,每行中没有元素顺序？_使用Numpy Python限制矩阵每行中的元素数量 - 腾讯云开发者社区

sorting、cuda、thrust

我正在发现如何使用cuda/ argsort沿着矩阵的行或列进行推力。这意味着给定一个矩阵，例如： A = [[ 3.4257, -1.2345, 0.6232, -0.1354], [0, 2, 1, 3],

浏览 33提问于2021-01-15得票数 0

回答已采纳

1回答

计算单个值的线程数

cuda

我正在使用计算功能1.2的CUDA。我正在运行我的CUDA代码与一个矩阵的每个元素，由其他两个矩阵的加法计算。我正在用一个线程计算一个元素的值。我想知道是否有可能使用两个线程来计算单个value.If。有谁能告诉我如何使用同一块的两个不同线

浏览 1提问于2014-02-17得票数 0

回答已采纳

1回答

函数cuMemcpyHtoD在jCUDA中的错误

cuda、jcuda

我对java编程很陌生，并试图在jCUDA中编写矩阵乘法程序。当数据从主机传输到设备时，反之亦然，我使用：在这里，devMatrixA、devMatrixB和devMatrixC是存储在设备内存中的矩阵h

浏览 2提问于2014-08-11得票数 0

回答已采纳

2回答

设备中矩阵的依赖性

cuda

我必须计算矩阵的元素(参见下图中的6*8示例)。矩阵元素具有依赖性，因此必须首先计算t1的值，然后计算依赖于t1的t2的值，而不是依赖于t2值的t3的值，依此类推。如何计算CUDA中的矩阵元素？我应该只使用</e

浏览 3提问于2013-05-17得票数 0

回答已采纳

1回答

反对角阵并行

matrix、parallel-processing、cuda、gpu

如何同时计算矩阵的反对角线和反对角线元素？如何在CUDA中循环反对角线的元素？

浏览 1提问于2012-12-09得票数 2

2回答

我们需要的是对所有这些点的运算，所以我们有10000 000次运算(10000 X 10000)。第一个问题:你推荐什么样的结构？我的意思是我应该把哪个变量传递给内核文件？我已经编写了这个脚本并对1000个点文件执行了它(1000000次操作)，我将所有的点放在一个数组中(1000000 X4)--从第一个文件中的X，Y到另一个文件的X，Y--并将它传递给内核，所以我有1000000我认为(但我不确定)原因是大量生成的线程(1000

浏览 5提问于2015-05-12得票数 1

回答已采纳

1回答

对向量中最小K元素排序，在GPU上实现强力K近邻算法

sorting、cuda、gpu、thrust、knn

我已经实现了一个K近邻的GPU使用纯CUDA和推力库函数调用。欧氏距离是用纯CUDA核计算的。然后，利用推力分选设备(基排序)对距离按递增顺序排序。最后，从排序向量中检索K第一元素(即K最近邻)。我的实现效果很好。然而，排序整个欧氏距离矩阵(集合可以包含更多的250000序列样本)只是为了检索K-nn似乎不是最优的。因此，我正在寻找一个GPU算法实现，它允许在找

浏览 4提问于2014-07-04得票数 2

回答已采纳

1回答

在Cuda编程中如何对矩阵进行逐元指数计算

c++、matrix、cuda、gpu、cublas

在Cuda编程中，如何对矩阵进行逐元指数计算？例如：我想计算：是否有一种有效的方法，并在适当的地方(即B代替A)？看样子，cublas不提供矩阵的元素操作。

浏览 4提问于2014-08-19得票数 0

回答已采纳

1回答

如何在CUDA中访问稀疏张量核心功能？

cuda、gpu、nvidia、tensor

张量核可以通过CUDA中的WMMA接口编程访问(请参阅和)。最近，在安培卡片的生成中，Nvidia宣布了用稀疏矩阵执行稀疏张量运算的能力，如下所示：所显示的格式似乎是在四个元素段(2位索引)内采用成对的元素及其顺序。但是，看看，我找不到任何关于这个，或者如何访问那些特殊的张量核心操作的东西。无论是AFAICT还是AFAICT，

浏览 37提问于2022-10-10得票数 2

回答已采纳

4回答

CUDA和MATLAB的循环优化

matlab、performance、cuda、gpgpu

我将尝试通过使用CUDA来优化一些用MATLAB编写的代码。我最近开始编写CUDA，但我对它的工作原理已经有了大致的了解。所以，假设我想把两个矩阵相加。在CUDA中，我可以编写一个算法，利用一个线程来计算结果矩阵中每个元素的答案。然而，这种技术不是很可能类似于MATLAB已经在做的事情吗？在这种情况下，效率不是独立于技术而仅归

浏览 1提问于2010-12-10得票数 5

回答已采纳

1回答

CUDA:一个块的多个维度，还是只有一个维度？

c++、matrix、cuda

我需要使用CUDA对矩阵的每个元素(基本上是内存中一次浮点值的向量)进行平方根运算。int thread_id = blockDim.x * block_id + threadIdx.x; 并检查thread_id但是，有没有什么特殊的</e

浏览 2提问于2011-03-29得票数 4

回答已采纳

1回答

CUDA平铺矩阵乘法解释

parallel-processing、cuda、nvidia、gpu-shared-memory

我试图了解CUDASDK8.0中的代码是如何工作的：matrixMulCUDA(float *C, float *A内核的这一部分对我来说相当棘手。我知道矩阵A和B表示为数组(*float)，我也知道使用共享内存来计算点积的概念，这要归功于共享内存块。我的问题是，我不理解代码的开头，特别是3个特定<em

浏览 3提问于2021-03-03得票数 3

回答已采纳

1回答

CUDA中矩阵游程求和的并行化

cuda

我需要计算一个矩阵的累积和，其中新的累积和矩阵的每个索引(i，j)的值是由原矩阵的子矩阵(0,0)到(i，j)形成的所有元素的和。有没有办法可以使用CUDA的多线程将其并行化？

浏览 0提问于2010-12-12得票数 0

1回答

cuBLAS ( numba )中的非平方C阶矩阵

python、anaconda、numba、cublas

我试图在Anaconda的Numba包中使用cuBLAS函数，并且有问题。我需要输入矩阵是C级的。输出可以按Fortran顺序进行。我可以运行包提供的示例脚本。在gemm_v1中，用户必须按照Fortran顺序创建输入矩阵。在gemm_v2中，它们可以传递给GEMM的cuda实现，并转移到设备上。我可以让这些例子与方阵一起工作。然而，我不知道如何使gemm_v2

浏览 1提问于2017-07-25得票数 17

1回答

库达。数据组织

cuda

在我的应用程序中，每个线程都需要自己的数据矩阵。比方说，我有T线程，每个线程都使用不同的矩阵D[M][N]。My解决方案：我定义了一个T*M*N元素的数组A。为了避免银行冲突，我首先存储每个线程的元素D[0][0] T时间，然后存储D[0][1] .D[0][M-1]、D[1][0]等元素(如果您像矩阵</

浏览 4提问于2012-12-04得票数 0

回答已采纳

1回答

UPC共享阵列

c++、c、upc

我想在全局地址空间中声明一个共享矩阵，但不是由UPC线程执行任何计算，而是由GPU使用CUDA进行计算。那么，是否可以声明一个UPC共享数组，其中数组中的数字元素不相等，或者线程数(线程变量)的乘数？

浏览 6提问于2013-12-09得票数 1

回答已采纳

1回答

python中的邻近矩阵

python、scipy

对于非常大的稀疏向量，计算距离/邻近矩阵的最佳方法是什么？例如，您将得到以下设计矩阵，其中每行为68771维稀疏向量。designMatrix <5830x68771型稀疏矩阵与压缩稀疏行format>中存储的1229041个元素

浏览 2提问于2011-03-18得票数 1

回答已采纳

1回答

最大矩阵大小单块CUDA实现

cuda、matrix-multiplication

我读到一篇文章，指出一个方阵的最大大小是16x16，因为32x32超过了512 (假设我们希望单个线程计算乘积矩阵的每个元素)。方阵是两个(相同维度)方阵的乘积(在CUDA中，使用一个网格块，最多有512个线程)。我想知道为什么没有提到17x17或22x22等维度的矩阵，因为这些维度的乘积矩阵也不超过512个元素。这是内存对齐的

浏览 2提问于2013-08-27得票数 0

2回答

如何将函数应用于SciPy CSR稀疏矩阵的行？

matrix、scipy

我有一个企业社会责任计数矩阵(X_ngrams)。我想要建立一个稀疏的对数-赔率矩阵，通过取每个条目的商数的对数和各行的总和。这是我最好的建议：row_sums = log_odds.sum(axis]))NotImplementedError: adding a nonzero scalar to a sparse matrix is

浏览 0提问于2015-07-16得票数 2

1回答

使用CUDA计算数百个小矩阵的特征值/特征向量

matrix、cuda、opencl、linear-algebra、numerical-methods

我有一个关于使用CUDA对数百个小矩阵进行特征分解的问题。在该算法中，在每个块中定义32个线程，而每个块处理一个小矩阵，这32个线程一起工作以膨胀32个非对角线元素，直到收敛。然而，我对它的<

浏览 2提问于2012-07-10得票数 14

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云