OpenCL矩阵乘法运行，但答案始终为零

文章/答案/技术大牛

发布

1回答

c++11、math、opencl、matrix-multiplication

我正在努力学习/自学OpenCL，并从一个做矩阵乘法的程序开始。无论我做什么，我最终得到的答案都是零。#include <fstream> #include <sstream>&pla

浏览 24提问于2019-08-13得票数 0

回答已采纳

2回答

有没有好的第三方库构建在openCL之上？

c++、opencl、primitive

我特别考虑处理基元，像FFT，卷积，相关，矩阵数学，任何类型的机器视觉基元。我还没有找到任何关于这些方面的东西，有没有人知道有什么好的项目涌现出来？

浏览 0提问于2009-11-21得票数 12

1回答

在OpenCL中并行执行多个小矩阵操作

matrix、opencl、gpgpu、linear-algebra、lapack

我有一个问题，要求我对许多(~4k)小(~3x3)平方Hermitian矩阵进行幂等运算和矩阵乘法。特别是，我需要每个工作项来执行一个这样的矩阵的特征位置，然后执行两个矩阵乘法。不幸的是，所有可用的OpenCL LAPACK似乎都用于将大型矩阵上的操作委托给GPU，而不是用于在OpenCL内核中执行较小的线性代数操作。由于我不希望自己在中为任意大小的矩阵实现矩阵乘法</em

浏览 1提问于2014-01-10得票数 2

回答已采纳

1回答

OpenCL矩阵向量乘法代码从运行到运行给出了正确和错误的解决方案

opencl、sparse-matrix、matrix-multiplication

我正在编写用于稀疏矩阵运算的OpenCL代码，我发现当包含内核的代码执行一两次时，它就能正常工作。但每运行几次，答案就会略有偏差。是什么导致乘法在不同的运行中给出不同的答案？

浏览 1提问于2012-11-03得票数 3

1回答

OpenCl --全球和本地的规模--差异以及为什么有时只增加本地规模是显而易见的？

multithreading、opencl、gpgpu

我编写了两个多平台和多设备的OpenCl程序。一是积分，二是矩阵-矩阵乘法.我发现处理全局工作大小并使其大到一些荒谬的大数字，比如2^28会减慢我的程序速度(而本地大小是1)，我可以自我解释，因为GPU可能把它拥有的每一个线程都放入，而且由于全局大小如此之大但在矩阵乘法中，我能够将局部大小设置为1024 (我的最大值)，它运行得非常快，从130秒计算到了大约6秒。但在积分上，我也这样做了，但增加局部大小并不会改变计算所花费的时间。当我

浏览 1提问于2017-01-06得票数 0

回答已采纳

5回答

可以在运行时优化浮点乘以零吗？

c++、c、optimization、floating-point、multiplication

我正在写一个算法来求一个nxn矩阵的逆。让我们以3x3矩阵的具体情况为例。float term1 = currentElement * DetOf2x2(...); // ^由于编译器无法知道currentElement在编译时将为

浏览 2提问于2013-03-05得票数 3

回答已采纳

1回答

矩形矩阵的分治

algorithm、matrix、divide-and-conquer

我对这个问题的含糊不清表示歉意，但我想找出一种方法来实现矩形矩阵A和B的除法，从而使A=n和B=m。谢谢你的建议!

浏览 5提问于2015-11-21得票数 1

回答已采纳

1回答

OpenCL如何改变cl_mem的内存地址？

opencl、matrix-multiplication

我想做一个子矩阵乘法。err = clEnqueueWriteBuffer(queue, d_x, CL_TRUE, 0, data_size, h_x, 0, NULL, NULL); 如果我想做子矩阵乘法我得到了一个运行时错误："CL_INVALID_MEM_OBJECT" (-38)，当它将参数分配给OpenCL内核(clSetKernelArg)时。我想做这个操作的原因是，当我的输入矩阵A和B变大时，我发现矩阵</

浏览 1提问于2016-04-05得票数 0

回答已采纳

2回答

OpenCL工作-每个工作项-2 2DRange中的组

c、opencl、gpu

这个代码表示矩阵乘法，代码是用OpenCL编写的。这三个矩阵的大小(二合一)是1024x1024。谈到OpenCL实现，执行的范围是二维的，所以我们有1024x1024工作组，每个工作组由16x16工作项组成。将工作组维度设置为null不会更好，这样每个工作组都可以填充输出矩阵的每个单元格吗？在我看来，在阅读内核代码(在我链接的页面底部)时，似乎每个工作组都准备好了处理16x16工作项，但最终它们仍然是未使用的。我会将本地大小设置为空

浏览 1提问于2016-01-18得票数 1

3回答

稀疏矩阵值作为另一个矩阵的索引

matlab、matlab-figure、matlab-engine

S - NxN稀疏矩阵.S的非零值是A的指标。我想要计算一个向量x，以便在x的i‘第四个条目中对于i'th行中的每个非零值S，取A[j]并计算所有j的和，并将其放入x的i'th条目中。

浏览 3提问于2015-04-16得票数 3

2回答

内存中的OpenCL安卓矩阵乘法(mmap失败errno 12)

android、matrix、opencl、mmap、multiplication

我对安卓、JNI和OpenCL都很陌生。我正在努力将java矩阵传递给本机，执行OpenCL矩阵乘法，并将结果数组传递回java (在AndroidandAdreno330中)。我的代码主要是以adreno示例为基础构建的，它可以编译，但似乎内存不足，创建了设备缓冲区。CL_MEM_READ_ONLY, NULL,我现在只传递2x2<e

浏览 8提问于2015-11-20得票数 1

回答已采纳

4回答

一种快速计算矩阵乘法的算法

c++、arrays、matrix、multiplication

在c++代码eclipse的中间，我需要计算大小为2400*3600的矩阵A和B的乘法(所以维度是不一样的)。矩阵存储在浮点型二维arrays.They中是不稀疏的，没有限制。每一次乘法都需要很长时间(几分钟)，我真的需要减少它，因为我有一个循环，重复5000万次。每次都要乘以一个新的A和B。欢迎任何类型的建议，以降低时间复杂度。在一种特定情况下，第一列始终为1，值为1、-1或零。对这个案子有什么想法吗？在其他情况下，值可以是任何东

浏览 1提问于2011-06-06得票数 7

回答已采纳

1回答

使用AMD打开CL

opencl

我正在尝试实现矩阵乘法usign OpenCL。我有一块ATI Radeon HD Radeon 5000系列显卡。这是我在网上找到的程序之一，但链接错误正在到来，我无法解决。我尝试运行这个站点中提到的代码 error LN

浏览 2提问于2012-03-07得票数 2

回答已采纳

1回答

对于稀疏矩阵，Tensorflow使用COO格式而不是CSR有什么明显的原因吗？

tensorflow、sparse-matrix

我试图从Tensorflow内置的稀疏矩阵乘法API中获取性能优势。建议tf.embedding_lookup_sparse是正确的方法。虽然它执行较小的矩阵乘法，<1,3196>和<3196,1024>，但稀疏度为0.1的稀疏矩阵不能获得密集矩阵乘法。如果我的实现是正确的，我认为原因之一是Tensorflow使用COO格式保存所有索引-非零对。我不是这个领域的专家，但是，这不是众所周知的CS

浏览 6提问于2016-06-08得票数 4

回答已采纳

1回答

如何在卷积网中使用im2col运算更有效？

neural-network、conv-neural-network、correlation、convolution、deconvolution

我正在尝试实现一个卷积神经网络，我不明白为什么使用im2col操作更有效。它基本上是将输入乘以过滤器存储在单独的列中。但是为什么不应该直接使用循环来计算卷积而不是第一次执行im2col呢？

浏览 4提问于2017-09-14得票数 13

回答已采纳

2回答

如何在单cpu计算机上使用openCL实现程序

mpi、opencl、parallel-processing

我对GPU编程很陌生，我有一台没有显卡的笔记本电脑，我想在英特尔openCL上开发一个矩阵乘法程序，并使用MPI实现这个应用程序。这是我想做的项目建议。GPU集群计算(C++、OpenCL和MPI) problemImplement 研究MPI用于在单机上分发OpenCL应用程序(矩阵乘法/ 2D图像proc

浏览 1提问于2011-12-09得票数 2

3回答

对于给定的稀疏矩阵，如何将其与给定的二进制值向量相乘

python、numpy、scipy、sparse-matrix、linear-algebra

我有一个稀疏矩阵和另一个向量，我想把矩阵和向量相乘，这样向量的每一列等于零，就会把稀疏矩阵的整列都归零。我怎样才能做到这一点呢？

浏览 1提问于2018-05-29得票数 1

1回答

我使用了最小二乘法，但是matlab返回了完全错误的答案。

matlab、matrix、constraints、least-squares、inverse

所以我得用最小二乘法。首先，我创建系数矩阵.It是一个225*375矩阵。对于反求，我使用pinv()函数，然后将其乘以负载矩阵。我的问题是在有夹紧边的均匀载荷下的板弯曲问题。我希望至少正确的答案在我的边界(偏折必须是零)，但即使在边界，我有错误的答案。我在一本书中读到，有时在最小二乘方法中会出现错误，应该由用户手动纠正，但是我在其他地方找不到更多的解释。

浏览 0提问于2014-06-07得票数 0

回答已采纳

2回答

优化批量矩阵乘法opencl代码

opencl、matrix-multiplication、blas

下面是一个opencl内核，它执行多个独立矩阵的分块矩阵乘法。selectMatrixA和selectMatrixB按行主顺序存储多个矩阵(大小相同且为方阵)。clKernel, 2, NULL, globalWorkSize, 以下是在NVIDIA Grid K520上运行此程序时的一些性能数据谁能帮助我理解为什么代码运行缓慢，为什么2.比1慢这么多。我是OpenC

浏览 1提问于2014-09-18得票数 5

1回答

在我的OpenCL/Cloo(C#)程序中，“零拷贝”比非零拷贝慢。

c#、opencl、cloo

这可能只是.NET框架分配的内存对象没有正确地按页对齐的问题，但我不明白为什么零复制比非零复制慢。 retBuffer.Dispose(); }CPU矩阵乘法</em

浏览 30提问于2017-02-17得票数 1

点击加载更多