腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
添加
额外
的
工作
项
以使
全局
工作
大小
成为
本地
工作
大小
的
倍数
我正在编写一个OpenCL程序,但是我
的
全局
工作
大小
并不是
本地
工作
大小
的
倍数
。在OpenCL中,
全局
工作
大小
必须可以被局部
工作
大小
整除,所以我读到
的
一个解决方案是
添加
一些
额外
的
工作
项
,这些
额外
的
工
浏览 9
提问于2017-02-13
得票数 2
回答已采纳
2
回答
OpenCL中
的
最优局部/
全局
工作
大小
我想知道
如何
在OpenCL中为不同
的
设备选择最优
的
本地
和
全局
工作
大小
?AMD、NVIDIA、英特尔GPU是否有通用规则?我是否应该分析设备
的
物理构建(多处理器
的
数量、多处理器中
的
流处理器
的
数量等)?因为我看到一些库(如ViennaCL)用来评估正确
的
值,只是测试许多局部/
全局
工作
大小
的
组合,并选择最佳
浏览 2
提问于2013-01-10
得票数 4
1
回答
OpenCL -为大型数据集设置
本地
内存
然而,在内核
的
某些部分,这6000
项
必须相加在一起。
工作
组中
本地
元素
的
最大数量似乎是有限
的
。 我该
如何
解决这个问题呢?
浏览 2
提问于2017-04-09
得票数 0
1
回答
渲染缓冲区
的
OpenCL/OpenGL Interop尺寸与
工作
组
大小
的
关系
、
、
、
、
我正在做一些关于OpenCL/OpenGL互操作
的
测试。其中之一是创建一个附加了渲染缓冲区
的
OpenGL FBO。我正在尝试将像素写入到内核中相关
的
OpenCL内存对象( image2d_t)中,将所有内容都保存在GPU上,并在每一帧中将FBO写入主OpenGL帧缓冲区。帧缓冲区显示在可调整
大小
的
窗口中,因此渲染缓冲区
的
大小
可以改变。如果我尝试运行内核,除非宽度和高度维度是(
本地
)
工作
组
大小
的</e
浏览 2
提问于2013-10-20
得票数 2
1
回答
工作
组绑定检查不
工作
在我
的
OpenCL内核中,我正在检查global_id是否在
全局
问题
大小
之内,但它不起作用。 如果
全局
问题
大小
可以被
工作
组
大小
所除,那么一切都很好。如果没有,内核就什么也不做了。
浏览 1
提问于2015-06-19
得票数 0
回答已采纳
1
回答
调整
工作
全局
dim和局部(块) dim
的
最佳方法
、
、
我正在寻找调整线程网格
的
全局
和局部维度
的
最佳方法。在我
的
实验中,我理解由一个线程组成
的
32个块线程比由32个线程组成
的
一个块快32倍(在我
的
nvidia GTX 980上)。nKernels : local_ws;但是我知道如果内核
的
数量不多,这样就不会完全使用我
的
GPU,我们把这个
浏览 0
提问于2015-08-10
得票数 0
回答已采纳
3
回答
全局
工时规模是否需要是OpenCL中
工作
组规模
的
倍数
?
、
、
、
您好:
全局
工时
大小
(维度)是否需要是OpenCL中
工作
组
大小
(维度)
的
倍数
?将
工作
组维度
的
大小
动态设置为
全局
工作
维度
的
因子。(这将导致查找因子
的
开销,并可能将
工作
组设置为非最佳
大小
浏览 3
提问于2010-06-30
得票数 13
回答已采纳
1
回答
opencl
本地
内存
大小
如何
工作
?
、
、
例如,我有一个1000*800
的
图像。在这种情况下,GPU会自动提供100*100个计算单元吗? 这10000台能同时
工作
吗?如果硬件没有10000台,那么一个单元会不止一次做同样
的
事情吗?我测试了
本地
的
大小
,我发现如果我们使用一个非常小
的
大小
(1*1)或大
的
<
浏览 2
提问于2014-07-07
得票数 0
回答已采纳
1
回答
Opencl:确定最佳local_item_size
、
、
、
我
的
代码就像2d矩阵乘法( )。矩阵
的
密度为(1000*1000和10000*10000和100000*100000)。我能使用
的
最好
的
local_item_size是什么?
浏览 2
提问于2015-06-02
得票数 0
回答已采纳
1
回答
OpenCL
全局
/
本地
工作
大小
选择
、
、
、
现在我
的
任务很简单,把一个大数组复制到另一个数组。让我们假设a301300对b301300。这只是一个测试,让我了解什么是全球
工作
规模和
本地
工作
规模。__global float8* dts,1.在我
的
测试用例中,我似乎必须选择
全局
工作
大小
>数组
大小
。我是对
的
,还是只是对全球
工作
规模
的
定义感到困惑?CL_DEVI
浏览 0
提问于2016-12-21
得票数 1
2
回答
当矩阵
大小
变得太大时,OpenCL中
的
矩阵乘法核写不起作用
、
、
我写了一个OpenCL矩阵乘法核,它将做两个方阵
的
乘法。get_global_id(1); C[n*kx+ky]=C[n*kx+ky]+A[n*kx+i]*B[n*i+ky];} 启动内核
的
主机代码是,我试着在Macbook pro上
的
Intel Iris显卡上运行这个内核。当n很小时,它
工作
得很好。然而,当n为2000或更大时,则会给出错误
的
结果。此gpu
的
最大
全局
工作
<
浏览 3
提问于2014-12-06
得票数 2
回答已采纳
1
回答
OpenCL SHA1流量优化
、
、
、
我正在以线程方式在CPU上生成候选数据块,并使用对C++
的
CL enqueueWriteBuffer调用将这些数据加载到
全局
GPU内存中(使用uchars表示要散列
的
字节):errorCode = dispatchQueue->enqueueNDRangeKernel万
项</em
浏览 4
提问于2014-04-10
得票数 2
1
回答
如何
让更多
的
工作
项
在OpenCL中并发运行?
我将
全局
工作
大小
设置为{100,10},将
本地
工作
大小
设置为{1,1}。预计有100*10个
工作
项
同时运行,但结果只有大约50个
工作
项
。 我想知道
如何
让更多
的
工作
项目同时运行?这取决于我
的
代码复杂度吗? 注意:我只使用~100MB
全局
内存和~100KB私有内存
浏览 40
提问于2021-08-06
得票数 0
1
回答
工作
尺寸尺寸对OpenCL性能
的
影响
我最初
的
工作
单位和11*11*6779一样大。为了简单起见,我不想把它转换成一维
全局
工作
大小
。当我将其转换为21*21*6779时,性能比以前
的
慢5-6倍。据我所知,该代码与正在运行
的
线程数量无关。传输
的
数据量仅为
的
4倍,我认为这并不是程序运行较慢
的
原因,因为我测试了内存分配过程。注意,我
的
设备
的
最大
工作
项
为256*256*256,这意味着我将使
浏览 2
提问于2018-05-13
得票数 0
1
回答
工作
组规模
、
对于给定
的
内核,为什么work_groups
的
大小
总是相同
的
?我在某处读到(对于我们没有指定
本地
工作
大小
的
情况),openCL为内核创建了3个
工作
组(每个有217个
工作
项
),有651个
工作
项
(可以被3整除),而它创建了653个
工作
组,每个
工作
组有1个
工作
项
,因为653
工作
组中
浏览 4
提问于2012-07-13
得票数 11
回答已采纳
2
回答
OpenCL (JOCL) --内核中两个数组上
的
2D演算
、
、
、
、
我在这里问这个是因为我认为我已经理解了OpenCL是
如何
工作
的
,但是...我想有几件事我不明白。
大小
为(100,100,0),LWI
大小
为(10,10,0)。因此,在本例中,两个数组
的
大小
均为10,GWG和LWI如下所示: //clGetKernelWorkGroupInfo(kernel, device, CL.CL_KERNEL_WORK_GROUP_SIZE,但是,如果测试值
的
变量是(index_a * index_b) +
浏览 3
提问于2013-09-11
得票数 0
2
回答
OpenCL -检索可能
的
工作
项数量?
我正在使用一个非常基本
的
内核编写一个简单
的
OpenCL应用程序。我只有一个
工作
组,并且我正在尝试改变
工作
项目的数量。我注意到,当我只使用CPU时,我可以拥有任意数量
的
工作
项
。但是,当我只使用GPU
的
时候,我似乎只能有512,1024,2048,...
工作
项
。256会产生错误,任何不是2
的
幂
的
数字都会产生错误。我已经通过实验找到了这一点,但是我
如何
才能以编程方式(大
浏览 1
提问于2011-09-01
得票数 3
2
回答
使用OpenCL在矩阵中交换行
、
我是OpenCL
的
新手。我想交换矩阵2d中
的
行(作为一维处理)。我编写了没有并行性
的
简单函数: for (int numCol=0tmp = M[cell1]; M[cell2] = tmp; return 0;我
的
数据如下:n= 3;long AB[] ={ 1,2,3,3
浏览 0
提问于2021-12-24
得票数 0
1
回答
OpenCL,我
如何
概括大型计算
的
代码?
我对OpenCL
如何
划分一个庞大
的
计算任务感到困惑。我不知道
如何
正确地问问题,所以请让我从我认为OpenCL
的
工作
原理开始,然后我将根据这个例子提出一个具体
的
问题。我认为它
的
工作
原理如下: 假设我想使用一个内核(不管它是什么)来解决给定数量
的
问题。
浏览 1
提问于2015-08-14
得票数 0
回答已采纳
1
回答
使用2D内核计算OpenCL阵列偏移量
工作
组
、
、
我在使用2D
工作
组计算正确
的
数组偏移时遇到了困难。clEnqueueNDRangeKernel(command_queue, kernel, 2, NULL, globalWorkSizeCalc, localWorkSizeCalc, 0, NULL, NULL); 在内核内部,
如何
计算一个简单
的
数组加法
的
索引偏移量C[index] = A[index] + B[index]; 在localworksize为32X32
的
情况下运行相同
的
代码,如下所示 const si
浏览 26
提问于2021-04-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券