如何添加额外的工作项以使全局工作大小成为本地工作大小的倍数

文章/答案/技术大牛

发布

2回答

我正在编写一个OpenCL程序，但是我的全局工作大小并不是本地工作大小的倍数。在OpenCL中，全局工作大小必须可以被局部工作大小整除，所以我读到的一个解决方案是添加一些额外的工作项，这些额外的工

浏览 9提问于2017-02-13得票数 2

回答已采纳

2回答

OpenCL中的最优局部/全局工作大小

我想知道如何在OpenCL中为不同的设备选择最优的本地和全局工作大小？AMD、NVIDIA、英特尔GPU是否有通用规则？我是否应该分析设备的物理构建(多处理器的数量、多处理器中的流处理器的数量等)？因为我看到一些库(如ViennaCL)用来评估正确的值，只是测试许多局部/全局工作大小的组合，并选择最佳

浏览 2提问于2013-01-10得票数 4

1回答

OpenCL -为大型数据集设置本地内存

然而，在内核的某些部分，这6000项必须相加在一起。工作组中本地元素的最大数量似乎是有限的。我该如何解决这个问题呢？

浏览 2提问于2017-04-09得票数 0

1回答

渲染缓冲区的OpenCL/OpenGL Interop尺寸与工作组大小的关系

、、、、

我正在做一些关于OpenCL/OpenGL互操作的测试。其中之一是创建一个附加了渲染缓冲区的OpenGL FBO。我正在尝试将像素写入到内核中相关的OpenCL内存对象( image2d_t)中，将所有内容都保存在GPU上，并在每一帧中将FBO写入主OpenGL帧缓冲区。帧缓冲区显示在可调整大小的窗口中，因此渲染缓冲区的大小可以改变。如果我尝试运行内核，除非宽度和高度维度是(本地)工作组大小的</e

浏览 2提问于2013-10-20得票数 2

1回答

工作组绑定检查不工作

在我的OpenCL内核中，我正在检查global_id是否在全局问题大小之内，但它不起作用。如果全局问题大小可以被工作组大小所除，那么一切都很好。如果没有，内核就什么也不做了。

浏览 1提问于2015-06-19得票数 0

回答已采纳

1回答

调整工作全局dim和局部(块) dim的最佳方法

、、

我正在寻找调整线程网格的全局和局部维度的最佳方法。在我的实验中，我理解由一个线程组成的32个块线程比由32个线程组成的一个块快32倍(在我的nvidia GTX 980上)。nKernels : local_ws;但是我知道如果内核的数量不多，这样就不会完全使用我的GPU，我们把这个

浏览 0提问于2015-08-10得票数 0

回答已采纳

3回答

全局工时规模是否需要是OpenCL中工作组规模的倍数？

、、、

您好:全局工时大小(维度)是否需要是OpenCL中工作组大小(维度)的倍数？将工作组维度的大小动态设置为全局工作维度的因子。(这将导致查找因子的开销，并可能将工作组设置为非最佳大小

浏览 3提问于2010-06-30得票数 13

回答已采纳

1回答

opencl本地内存大小如何工作？

、、

例如，我有一个1000*800的图像。在这种情况下，GPU会自动提供100*100个计算单元吗？这10000台能同时工作吗?如果硬件没有10000台，那么一个单元会不止一次做同样的事情吗？我测试了本地的大小，我发现如果我们使用一个非常小的大小(1*1)或大的<

浏览 2提问于2014-07-07得票数 0

回答已采纳

1回答

Opencl:确定最佳local_item_size

、、、

我的代码就像2d矩阵乘法( )。矩阵的密度为(1000*1000和10000*10000和100000*100000)。我能使用的最好的local_item_size是什么？

浏览 2提问于2015-06-02得票数 0

回答已采纳

1回答

OpenCL全局/本地工作大小选择

、、、

现在我的任务很简单，把一个大数组复制到另一个数组。让我们假设a301300对b301300。这只是一个测试，让我了解什么是全球工作规模和本地工作规模。__global float8* dts,1.在我的测试用例中，我似乎必须选择全局工作大小>数组大小。我是对的，还是只是对全球工作规模的定义感到困惑？CL_DEVI

浏览 0提问于2016-12-21得票数 1

2回答

当矩阵大小变得太大时，OpenCL中的矩阵乘法核写不起作用

、、

我写了一个OpenCL矩阵乘法核，它将做两个方阵的乘法。get_global_id(1); C[n*kx+ky]=C[n*kx+ky]+A[n*kx+i]*B[n*i+ky];} 启动内核的主机代码是，我试着在Macbook pro上的Intel Iris显卡上运行这个内核。当n很小时，它工作得很好。然而，当n为2000或更大时，则会给出错误的结果。此gpu的最大全局工作<

浏览 3提问于2014-12-06得票数 2

回答已采纳

1回答

OpenCL SHA1流量优化

、、、

我正在以线程方式在CPU上生成候选数据块，并使用对C++的CL enqueueWriteBuffer调用将这些数据加载到全局GPU内存中(使用uchars表示要散列的字节)：errorCode = dispatchQueue->enqueueNDRangeKernel万项</em

浏览 4提问于2014-04-10得票数 2

1回答

如何让更多的工作项在OpenCL中并发运行？

我将全局工作大小设置为{100,10}，将本地工作大小设置为{1,1}。预计有100*10个工作项同时运行，但结果只有大约50个工作项。我想知道如何让更多的工作项目同时运行？这取决于我的代码复杂度吗？注意:我只使用~100MB全局内存和~100KB私有内存

浏览 40提问于2021-08-06得票数 0

1回答

工作尺寸尺寸对OpenCL性能的影响

我最初的工作单位和11*11*6779一样大。为了简单起见，我不想把它转换成一维全局工作大小。当我将其转换为21*21*6779时，性能比以前的慢5-6倍。据我所知，该代码与正在运行的线程数量无关。传输的数据量仅为的4倍，我认为这并不是程序运行较慢的原因，因为我测试了内存分配过程。注意，我的设备的最大工作项为256*256*256，这意味着我将使

浏览 2提问于2018-05-13得票数 0

1回答

工作组规模

、

对于给定的内核，为什么work_groups的大小总是相同的？我在某处读到(对于我们没有指定本地工作大小的情况)，openCL为内核创建了3个工作组(每个有217个工作项)，有651个工作项(可以被3整除)，而它创建了653个工作组，每个工作组有1个工作项，因为653工作组中

浏览 4提问于2012-07-13得票数 11

回答已采纳

2回答

OpenCL (JOCL) --内核中两个数组上的2D演算

、、、、

我在这里问这个是因为我认为我已经理解了OpenCL是如何工作的，但是...我想有几件事我不明白。大小为(100,100，0)，LWI大小为(10，10，0)。因此，在本例中，两个数组的大小均为10，GWG和LWI如下所示： //clGetKernelWorkGroupInfo(kernel, device, CL.CL_KERNEL_WORK_GROUP_SIZE，但是，如果测试值的变量是(index_a * index_b) +

浏览 3提问于2013-09-11得票数 0

2回答

OpenCL -检索可能的工作项数量？

我正在使用一个非常基本的内核编写一个简单的OpenCL应用程序。我只有一个工作组，并且我正在尝试改变工作项目的数量。我注意到，当我只使用CPU时，我可以拥有任意数量的工作项。但是，当我只使用GPU的时候，我似乎只能有512,1024,2048，...工作项。256会产生错误，任何不是2的幂的数字都会产生错误。我已经通过实验找到了这一点，但是我如何才能以编程方式(大

浏览 1提问于2011-09-01得票数 3

2回答

使用OpenCL在矩阵中交换行

、

我是OpenCL的新手。我想交换矩阵2d中的行(作为一维处理)。我编写了没有并行性的简单函数： for (int numCol=0tmp = M[cell1]; M[cell2] = tmp; return 0;我的数据如下:n= 3；long AB[] ={ 1，2，3，3

浏览 0提问于2021-12-24得票数 0

1回答

OpenCL，我如何概括大型计算的代码？

我对OpenCL如何划分一个庞大的计算任务感到困惑。我不知道如何正确地问问题，所以请让我从我认为OpenCL的工作原理开始，然后我将根据这个例子提出一个具体的问题。我认为它的工作原理如下：假设我想使用一个内核(不管它是什么)来解决给定数量的问题。

浏览 1提问于2015-08-14得票数 0

回答已采纳

1回答

使用2D内核计算OpenCL阵列偏移量工作组

、、

我在使用2D工作组计算正确的数组偏移时遇到了困难。clEnqueueNDRangeKernel(command_queue, kernel, 2, NULL, globalWorkSizeCalc, localWorkSizeCalc, 0, NULL, NULL); 在内核内部，如何计算一个简单的数组加法的索引偏移量C[index] = A[index] + B[index]; 在localworksize为32X32的情况下运行相同的代码，如下所示 const si

浏览 26提问于2021-04-05得票数 0

回答已采纳

点击加载更多