腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
OpenCL
矩阵
乘法
运行
,
但
答案
始终
为
零
c++11
、
math
、
opencl
、
matrix-multiplication
我正在努力学习/自学
OpenCL
,并从一个做
矩阵
乘法
的程序开始。无论我做什么,我最终得到的
答案
都是
零
。#include <fstream> #include <sstream>&pla
浏览 24
提问于2019-08-13
得票数 0
回答已采纳
2
回答
有没有好的第三方库构建在
openCL
之上?
c++
、
opencl
、
primitive
我特别考虑处理基元,像FFT,卷积,相关,
矩阵
数学,任何类型的机器视觉基元。我还没有找到任何关于这些方面的东西,有没有人知道有什么好的项目涌现出来?
浏览 0
提问于2009-11-21
得票数 12
1
回答
在
OpenCL
中并行执行多个小
矩阵
操作
matrix
、
opencl
、
gpgpu
、
linear-algebra
、
lapack
我有一个问题,要求我对许多(~4k)小(~3x3)平方Hermitian
矩阵
进行幂等运算和
矩阵
乘法
。特别是,我需要每个工作项来执行一个这样的
矩阵
的特征位置,然后执行两个
矩阵
乘法
。不幸的是,所有可用的
OpenCL
LAPACK似乎都用于将大型
矩阵
上的操作委托给GPU,而不是用于在
OpenCL
内核中执行较小的线性代数操作。由于我不希望自己在中
为
任意大小的
矩阵
实现
矩阵
乘法</em
浏览 1
提问于2014-01-10
得票数 2
回答已采纳
1
回答
OpenCL
矩阵
向量
乘法
代码从
运行
到
运行
给出了正确和错误的解决方案
opencl
、
sparse-matrix
、
matrix-multiplication
我正在编写用于稀疏
矩阵
运算的
OpenCL
代码,我发现当包含内核的代码执行一两次时,它就能正常工作。
但
每
运行
几次,
答案
就会略有偏差。是什么导致
乘法
在不同的
运行
中给出不同的
答案
?
浏览 1
提问于2012-11-03
得票数 3
1
回答
OpenCl
--全球和本地的规模--差异以及为什么有时只增加本地规模是显而易见的?
multithreading
、
opencl
、
gpgpu
我编写了两个多平台和多设备的
OpenCl
程序。一是积分,二是
矩阵
-
矩阵
乘法
.我发现处理全局工作大小并使其大到一些荒谬的大数字,比如2^28会减慢我的程序速度(而本地大小是1),我可以自我解释,因为GPU可能把它拥有的每一个线程都放入,而且由于全局大小如此之大但在
矩阵
乘法
中,我能够将局部大小设置
为
1024 (我的最大值),它
运行
得非常快,从130秒计算到了大约6秒。但在积分上,我也这样做了,
但
增加局部大小并不会改变计算所花费的时间。当我
浏览 1
提问于2017-01-06
得票数 0
回答已采纳
5
回答
可以在
运行
时优化浮点乘以
零
吗?
c++
、
c
、
optimization
、
floating-point
、
multiplication
我正在写一个算法来求一个nxn
矩阵
的逆。让我们以3x3
矩阵
的具体情况
为
例。float term1 = currentElement * DetOf2x2(...); // ^由于编译器无法知道currentElement在编译时将为
浏览 2
提问于2013-03-05
得票数 3
回答已采纳
1
回答
矩形
矩阵
的分治
algorithm
、
matrix
、
divide-and-conquer
我对这个问题的含糊不清表示歉意,但我想找出一种方法来实现矩形
矩阵
A和B的除法,从而使A=n和B=m。谢谢你的建议!
浏览 5
提问于2015-11-21
得票数 1
回答已采纳
1
回答
OpenCL
如何改变cl_mem的内存地址?
opencl
、
matrix-multiplication
我想做一个子
矩阵
乘法
。err = clEnqueueWriteBuffer(queue, d_x, CL_TRUE, 0, data_size, h_x, 0, NULL, NULL); 如果我想做子
矩阵
乘法
我得到了一个
运行
时错误:"CL_INVALID_MEM_OBJECT" (-38),当它将参数分配给
OpenCL
内核(clSetKernelArg)时。我想做这个操作的原因是,当我的输入
矩阵
A和B变大时,我发现
矩阵</
浏览 1
提问于2016-04-05
得票数 0
回答已采纳
2
回答
OpenCL
工作-每个工作项-2 2DRange中的组
c
、
opencl
、
gpu
这个代码表示
矩阵
乘法
,代码是用
OpenCL
编写的。这三个
矩阵
的大小(二合一)是1024x1024。谈到
OpenCL
实现,执行的范围是二维的,所以我们有1024x1024工作组,每个工作组由16x16工作项组成。将工作组维度设置
为
null不会更好,这样每个工作组都可以填充输出
矩阵
的每个单元格吗?在我看来,在阅读内核代码(在我链接的页面底部)时,似乎每个工作组都准备好了处理16x16工作项,
但
最终它们仍然是未使用的。我会将本地大小设置
为
空
浏览 1
提问于2016-01-18
得票数 1
3
回答
稀疏
矩阵
值作为另一个
矩阵
的索引
matlab
、
matlab-figure
、
matlab-engine
S - NxN稀疏
矩阵
.S的非
零
值是A的指标。我想要计算一个向量x,以便在x的i‘第四个条目中 对于i'th行中的每个非
零
值S,取A[j]并计算所有j的和,并将其放入x的i'th条目中。
浏览 3
提问于2015-04-16
得票数 3
2
回答
内存中的
OpenCL
安卓
矩阵
乘法
(mmap失败errno 12)
android
、
matrix
、
opencl
、
mmap
、
multiplication
我对安卓、JNI和
OpenCL
都很陌生。我正在努力将java
矩阵
传递给本机,执行
OpenCL
矩阵
乘法
,并将结果数组传递回java (在AndroidandAdreno330中)。我的代码主要是以adreno示例
为
基础构建的,它可以编译,
但
似乎内存不足,创建了设备缓冲区。CL_MEM_READ_ONLY, NULL,我现在只传递2x2<e
浏览 8
提问于2015-11-20
得票数 1
回答已采纳
4
回答
一种快速计算
矩阵
乘法
的算法
c++
、
arrays
、
matrix
、
multiplication
在c++代码eclipse的中间,我需要计算大小
为
2400*3600的
矩阵
A和B的
乘法
(所以维度是不一样的)。
矩阵
存储在浮点型二维arrays.They中是不稀疏的,没有限制。每一次
乘法
都需要很长时间(几分钟),我真的需要减少它,因为我有一个循环,重复5000万次。每次都要乘以一个新的A和B。欢迎任何类型的建议,以降低时间复杂度。在一种特定情况下,第一列
始终
为
1,值
为
1、-1或
零
。对这个案子有什么想法吗? 在其他情况下,值可以是任何东
浏览 1
提问于2011-06-06
得票数 7
回答已采纳
1
回答
使用AMD打开CL
opencl
我正在尝试实现
矩阵
乘法
usign
OpenCL
。我有一块ATI Radeon HD Radeon 5000系列显卡。这是我在网上找到的程序之一,
但
链接错误正在到来,我无法解决。我尝试
运行
这个站点中提到的代码 error LN
浏览 2
提问于2012-03-07
得票数 2
回答已采纳
1
回答
对于稀疏
矩阵
,Tensorflow使用COO格式而不是CSR有什么明显的原因吗?
tensorflow
、
sparse-matrix
我试图从Tensorflow内置的稀疏
矩阵
乘法
API中获取性能优势。建议tf.embedding_lookup_sparse是正确的方法。虽然它执行较小的
矩阵
乘法
,<1,3196>和<3196,1024>,
但
稀疏度
为
0.1的稀疏
矩阵
不能获得密集
矩阵
乘法
。如果我的实现是正确的,我认为原因之一是Tensorflow使用COO格式保存所有索引-非
零
对。我不是这个领域的专家,但是,这不是众所周知的CS
浏览 6
提问于2016-06-08
得票数 4
回答已采纳
1
回答
如何在卷积网中使用im2col运算更有效?
neural-network
、
conv-neural-network
、
correlation
、
convolution
、
deconvolution
我正在尝试实现一个卷积神经网络,我不明白为什么使用im2col操作更有效。它基本上是将输入乘以过滤器存储在单独的列中。但是为什么不应该直接使用循环来计算卷积而不是第一次执行im2col呢?
浏览 4
提问于2017-09-14
得票数 13
回答已采纳
2
回答
如何在单cpu计算机上使用
openCL
实现程序
mpi
、
opencl
、
parallel-processing
我对GPU编程很陌生,我有一台没有显卡的笔记本电脑,我想在英特尔
openCL
上开发一个
矩阵
乘法
程序,并使用MPI实现这个应用程序。这是我想做的项目建议。GPU集群计算(C++、
OpenCL
和MPI) problemImplement 研究MPI用于在单机上分发
OpenCL
应用程序(
矩阵
乘法
/ 2D图像proc
浏览 1
提问于2011-12-09
得票数 2
3
回答
对于给定的稀疏
矩阵
,如何将其与给定的二进制值向量相乘
python
、
numpy
、
scipy
、
sparse-matrix
、
linear-algebra
我有一个稀疏
矩阵
和另一个向量,我想把
矩阵
和向量相乘,这样向量的每一列等于
零
,就会把稀疏
矩阵
的整列都归
零
。 我怎样才能做到这一点呢?
浏览 1
提问于2018-05-29
得票数 1
1
回答
我使用了最小二
乘法
,但是matlab返回了完全错误的
答案
。
matlab
、
matrix
、
constraints
、
least-squares
、
inverse
所以我得用最小二
乘法
。首先,我创建系数
矩阵
.It是一个225*375
矩阵
。对于反求,我使用pinv()函数,然后将其乘以负载
矩阵
。我的问题是在有夹紧边的均匀载荷下的板弯曲问题。我希望至少正确的
答案
在我的边界(偏折必须是
零
),
但
即使在边界,我有错误的
答案
。我在一本书中读到,有时在最小二乘方法中会出现错误,应该由用户手动纠正,但是我在其他地方找不到更多的解释。
浏览 0
提问于2014-06-07
得票数 0
回答已采纳
2
回答
优化批量
矩阵
乘法
opencl
代码
opencl
、
matrix-multiplication
、
blas
下面是一个
opencl
内核,它执行多个独立
矩阵
的分块
矩阵
乘法
。selectMatrixA和selectMatrixB按行主顺序存储多个
矩阵
(大小相同且为方阵)。clKernel, 2, NULL, globalWorkSize, 以下是在NVIDIA Grid K520上
运行
此程序时的一些性能数据谁能帮助我理解为什么代码
运行
缓慢,为什么2.比1慢这么多。我是
OpenC
浏览 1
提问于2014-09-18
得票数 5
1
回答
在我的
OpenCL
/Cloo(C#)程序中,“
零
拷贝”比非
零
拷贝慢。
c#
、
opencl
、
cloo
这可能只是.NET框架分配的内存对象没有正确地按页对齐的问题,但我不明白为什么
零
复制比非
零
复制慢。 retBuffer.Dispose(); }CPU
矩阵
乘法</em
浏览 30
提问于2017-02-17
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券