腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
cuda
计算
矩阵
中
每行
元素
的
顺序
?
sorting
、
cuda
、
thrust
我正在发现
如何
使用
cuda
/ argsort沿着
矩阵
的
行或列进行推力。这意味着给定一个
矩阵
,例如: A = [[ 3.4257, -1.2345, 0.6232, -0.1354], [0, 2, 1, 3],
浏览 33
提问于2021-01-15
得票数 0
回答已采纳
1
回答
计算
单个值
的
线程数
cuda
我正在
使用
计算
功能1.2
的
CUDA
。我正在运行我
的
CUDA
代码与一个
矩阵
的
每个
元素
,由其他两个
矩阵
的
加法
计算
。我正在用一个线程
计算
一个
元素
的
值。我想知道是否有可能
使用
两个线程来
计算
单个value.If。有谁能告诉我
如何
使用
同一块
的
两个不同线
浏览 1
提问于2014-02-17
得票数 0
回答已采纳
1
回答
函数cuMemcpyHtoD在jCUDA
中
的
错误
cuda
、
jcuda
我对java编程很陌生,并试图在jCUDA
中
编写
矩阵
乘法程序。当数据从主机传输到设备时,反之亦然,我
使用
:在这里,devMatrixA、devMatrixB和devMatrixC是存储在设备内存
中
的
矩阵
h
浏览 2
提问于2014-08-11
得票数 0
回答已采纳
2
回答
设备
中
矩阵
的
依赖性
cuda
我必须
计算
矩阵
的
元素
(参见下图中
的
6*8示例)。
矩阵
元素
具有依赖性,因此必须首先
计算
t1
的
值,然后
计算
依赖于t1
的
t2
的
值,而不是依赖于t2值
的
t3
的
值,依此类推。
如何
计算
CUDA
中
的
矩阵
元素
?我应该只
使用</e
浏览 3
提问于2013-05-17
得票数 0
回答已采纳
1
回答
反对角阵并行
matrix
、
parallel-processing
、
cuda
、
gpu
如何
同时
计算
矩阵
的
反对角线和反对角线
元素
?
如何
在
CUDA
中
循环反对角线
的
元素
?
浏览 1
提问于2012-12-09
得票数 2
2
回答
OpenCL -需要推荐
的
结构
c++
、
structure
、
opencl
我们需要
的
是对所有这些点
的
运算,所以我们有10000 000次运算(10000 X 10000)。 第一个问题:你推荐什么样
的
结构?我
的
意思是我应该把哪个变量传递给内核文件?我已经编写了这个脚本并对1000个点文件执行了它(1000000次操作),我将所有的点放在一个数组
中
(1000000 X4)--从第一个文件
中
的
X,Y到另一个文件
的
X,Y--并将它传递给内核,所以我有1000000我认为(但我不确定)原因是大量生成
的
线程(1000
浏览 5
提问于2015-05-12
得票数 1
回答已采纳
1
回答
对向量中最小K
元素
排序,在GPU上实现强力K近邻算法
sorting
、
cuda
、
gpu
、
thrust
、
knn
我已经实现了一个K近邻
的
GPU
使用
纯
CUDA
和推力库函数调用。 欧氏距离是用纯
CUDA
核
计算
的
。然后,利用推力分选设备(基排序)对距离按递增
顺序
排序。最后,从排序向量
中
检索K第一
元素
(即K最近邻)。我
的
实现效果很好。然而,排序整个欧氏距离
矩阵
(集合可以包含更多
的
250000序列样本)只是为了检索K-nn似乎不是最优
的
。因此,我正在寻找一个GPU算法实现,它允许在找
浏览 4
提问于2014-07-04
得票数 2
回答已采纳
1
回答
在
Cuda
编程
中
如何
对
矩阵
进行逐元指数
计算
c++
、
matrix
、
cuda
、
gpu
、
cublas
在
Cuda
编程
中
,
如何
对
矩阵
进行逐元指数
计算
?例如:我想
计算
:是否有一种有效
的
方法,并在适当
的
地方(即B代替A)?看样子,cublas不提供
矩阵
的
元素
操作。
浏览 4
提问于2014-08-19
得票数 0
回答已采纳
1
回答
如何
在
CUDA
中
访问稀疏张量核心功能?
cuda
、
gpu
、
nvidia
、
tensor
张量核可以通过
CUDA
中
的
WMMA接口编程访问(请参阅和)。最近,在安培卡片
的
生成
中
,Nvidia宣布了用稀疏
矩阵
执行稀疏张量运算
的
能力,如下所示: 所显示
的
格式似乎是在四个
元素
段(2位索引)内采用成对
的
元素
及其
顺序
。但是,看看,我找不到任何关于这个,或者
如何
访问那些特殊
的
张量核心操作
的
东西。无论是AFAICT还是AFAICT,
浏览 37
提问于2022-10-10
得票数 2
回答已采纳
4
回答
CUDA
和MATLAB
的
循环优化
matlab
、
performance
、
cuda
、
gpgpu
我将尝试通过
使用
CUDA
来优化一些用MATLAB编写
的
代码。我最近开始编写
CUDA
,但我对它
的
工作原理已经有了大致
的
了解。 所以,假设我想把两个
矩阵
相加。在
CUDA
中
,我可以编写一个算法,利用一个线程来
计算
结果
矩阵
中
每个
元素
的
答案。然而,这种技术不是很可能类似于MATLAB已经在做
的
事情吗?在这种情况下,效率不是独立于技术而仅归
浏览 1
提问于2010-12-10
得票数 5
回答已采纳
1
回答
CUDA
:一个块
的
多个维度,还是只有一个维度?
c++
、
matrix
、
cuda
我需要
使用
CUDA
对
矩阵
的
每个
元素
(基本上是内存中一次浮点值
的
向量)进行平方根运算。int thread_id = blockDim.x * block_id + threadIdx.x; 并检查thread_id但是,有没有什么特殊
的</e
浏览 2
提问于2011-03-29
得票数 4
回答已采纳
1
回答
CUDA
平铺
矩阵
乘法解释
parallel-processing
、
cuda
、
nvidia
、
gpu-shared-memory
我试图了解CUDASDK8.0
中
的
代码是
如何
工作
的
:matrixMulCUDA(float *C, float *A内核
的
这一部分对我来说相当棘手。我知道
矩阵
A和B表示为数组(*float),我也知道
使用
共享内存来
计算
点积
的
概念,这要归功于共享内存块。我
的
问题是,我不理解代码
的
开头,特别是3个特定<em
浏览 3
提问于2021-03-03
得票数 3
回答已采纳
1
回答
CUDA
中
矩阵
游程求和
的
并行化
cuda
我需要
计算
一个
矩阵
的
累积和,其中新
的
累积和
矩阵
的
每个索引(i,j)
的
值是由原
矩阵
的
子
矩阵
(0,0)到(i,j)形成
的
所有
元素
的
和。有没有办法可以
使用
CUDA
的
多线程将其并行化?
浏览 0
提问于2010-12-12
得票数 0
1
回答
cuBLAS ( numba )
中
的
非平方C阶
矩阵
python
、
anaconda
、
numba
、
cublas
我试图在Anaconda
的
Numba包中
使用
cuBLAS函数,并且有问题。我需要输入
矩阵
是C级
的
。输出可以按Fortran
顺序
进行。 我可以运行包提供
的
示例脚本。在gemm_v1
中
,用户必须按照Fortran
顺序
创建输入
矩阵
。在gemm_v2
中
,它们可以传递给GEMM
的
cuda
实现,并转移到设备上。我可以让这些例子与方阵一起工作。然而,我不知道
如何
使gemm_v2
浏览 1
提问于2017-07-25
得票数 17
1
回答
库达。数据组织
cuda
在我
的
应用程序
中
,每个线程都需要自己
的
数据
矩阵
。比方说,我有T线程,每个线程都
使用
不同
的
矩阵
D[M][N]。My解决方案:我定义了一个T*M*N
元素
的
数组A。为了避免银行冲突,我首先存储每个线程
的
元素
D[0][0] T时间,然后存储D[0][1] .D[0][M-1]、D[1][0]等
元素
(如果您像
矩阵</
浏览 4
提问于2012-12-04
得票数 0
回答已采纳
1
回答
UPC共享阵列
c++
、
c
、
upc
我想在全局地址空间中声明一个共享
矩阵
,但不是由UPC线程执行任何
计算
,而是由GPU
使用
CUDA
进行
计算
。那么,是否可以声明一个UPC共享数组,其中数组
中
的
数字
元素
不相等,或者线程数(线程变量)
的
乘数?
浏览 6
提问于2013-12-09
得票数 1
回答已采纳
1
回答
python
中
的
邻近
矩阵
python
、
scipy
对于非常大
的
稀疏向量,
计算
距离/邻近
矩阵
的
最佳方法是什么?例如,您将得到以下设计
矩阵
,其中
每行
为68771维稀疏向量。designMatrix <5830x68771型稀疏
矩阵
与压缩稀疏行format>
中
存储
的
1229041个
元素
浏览 2
提问于2011-03-18
得票数 1
回答已采纳
1
回答
最大
矩阵
大小单块
CUDA
实现
cuda
、
matrix-multiplication
我读到一篇文章,指出一个方阵
的
最大大小是16x16,因为32x32超过了512 (假设我们希望单个线程
计算
乘积
矩阵
的
每个
元素
)。方阵是两个(相同维度)方阵
的
乘积(在
CUDA
中
,
使用
一个网格块,最多有512个线程)。我想知道为什么没有提到17x17或22x22等维度
的
矩阵
,因为这些维度
的
乘积
矩阵
也不超过512个
元素
。这是内存对齐
的
浏览 2
提问于2013-08-27
得票数 0
2
回答
如何
将函数应用于SciPy CSR稀疏
矩阵
的
行?
matrix
、
scipy
我有一个企业社会责任计数
矩阵
(X_ngrams)。我想要建立一个稀疏
的
对数-赔率
矩阵
,通过取每个条目的商数
的
对数和各行
的
总和。这是我最好
的
建议:row_sums = log_odds.sum(axis]))NotImplementedError: adding a nonzero scalar to a sparse matrix is
浏览 0
提问于2015-07-16
得票数 2
1
回答
使用
CUDA
计算
数百个小
矩阵
的
特征值/特征向量
matrix
、
cuda
、
opencl
、
linear-algebra
、
numerical-methods
我有一个关于
使用
CUDA
对数百个小
矩阵
进行特征分解
的
问题。在该算法
中
,在每个块
中
定义32个线程,而每个块处理一个小
矩阵
,这32个线程一起工作以膨胀32个非对角线
元素
,直到收敛。然而,我对它
的<
浏览 2
提问于2012-07-10
得票数 14
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
深度学习框架TensorFlow2快速入门教程
python工厂第19层 多重列表1
NVIDIA Tensor Core深度学习核心解析:全是干货
NVIDIA深度学习Tensor Core全面解析
Python中的并行处理:实例编程指南
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券