腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(266)
视频
沙龙
1
回答
OpenCL
NDRange
使用率
-
内核
仅
更改
输出
缓冲区
的
一部分
、
我有一个用三维
NDRange
调用
的
内核
,但它只改变了
输出
缓冲区
的
一部分
。
内核
: __global const float* K2BufIn,{ commandQ_.enqueueNDRangeKernel(kernel_Kernel2_, cl::N
浏览 1
提问于2018-02-01
得票数 1
回答已采纳
2
回答
如何有效地交换
OpenCL
内存
缓冲区
?
、
、
正如标题所暗示
的
,我正在寻找如何有效地交换两个
OpenCL
缓冲区
。我
的
内核
使用了两个gloabl
缓冲区
,一个作为输入,另一个作为
输出
。但是,我使用相同
的
NDRange
在for循环中调用
内核
,每次都设置
内核
参数、将
内核
排队并交换
缓冲区
,因为前一个
输出
缓冲区
将是下一次迭代
的
输入
缓冲区
种子。 这里交
浏览 0
提问于2012-06-15
得票数 6
回答已采纳
3
回答
从另一个
OpenCL
内核
调用
OpenCL
内核
我在这里
的
一篇文章中看到,我们可以从
OpenCL
内核
调用函数。但在我
的
情况下,我也需要将复杂
的
函数并行化(由所有可用线程运行),所以我是否也必须使该函数成为
内核
,并像主
内核
中
的
function一样直接调用它?或者对这种情况有什么可能
的
解决方案?提前感谢
浏览 6
提问于2011-10-12
得票数 13
2
回答
并行复制和
opencl
内核
执行
我想用
OpenCL
实现一个图像过滤算法,但图像大小非常大(4096x4096)。我知道复制到
OpenCL
设备
的
时间可能太长。1)将整张图片分成两部分。2)将前半部分拷贝到设备上。3)在设备上执行镜像过滤
内核
,然后将镜像
的
后半部分拷贝到设备上。4)阻止
内核
执行,直到前半部分完成,然后再次调用
内核
处理后半部分。5)阻塞,直到
浏览 2
提问于2015-05-05
得票数 0
1
回答
OpenCL
内核
定时测量0秒或导致SIGABRT
、
、
、
、
我在测量Arch (Manjaro)上一个简单
OpenCL
内核
的
时间时遇到了问题。
OpenCL
测量时间
的
方法是给我一个0秒
的
时间,或者根据具体情况给出一个错误。我
的
问题 当在一个大
的
out[i] = in[i];上执行通
内核
(基本上是
NDRange
)时,CPU测量正确
的
执行时间,而
OpenCL
报告0。I对输入值进行了双重检查,使其与
输出
相等--因此
内核<
浏览 12
提问于2020-01-05
得票数 0
1
回答
如何正确地初始化这个C++
的
openCL
内核
的
输入/
输出
参数?
、
、
、
这是我第一次编写
OpenCL
计算单元,所以我开始很小;下面是我
的
基本测试
内核
: std::cout << value << ", ";我希望在运行
内核
之后打印
输出
向量
缓冲区
的</e
浏览 3
提问于2021-11-10
得票数 0
回答已采纳
1
回答
OpenCL
:防止
内核
缓存
、
我正在使用
opencl
完成我
的
第一步,现在遇到了一个问题。我使用
的
NVIDIA
OpenCL
库与一个GT540m显卡。我怎样才能防止这种行为? 非常感谢。知更鸟
浏览 3
提问于2015-05-14
得票数 5
回答已采纳
3
回答
是否定义从不同
内核
写入同一个
缓冲区
?
我有
OpenCL
1.1,一个设备,无序执行命令队列,并希望多个
内核
将它们
的
结果
输出
到不同
的
、而不是重叠
的
任意区域
的
一个
缓冲区
中。有可能吗?kernel_leaf.setArg(2, beg); commandQueue.enqueueNDRangeKernel(kernel, NULL, cl::
NDRange
(block_size_x), cl::
N
浏览 5
提问于2015-02-13
得票数 0
回答已采纳
2
回答
OpenCL
矩阵乘法失败
、
、
我正在使用
OpenCL
实现一个矩阵乘法,但问题是我总是得到错误
的
结果。也许这里有人能给我一个提示,可能是哪里出了错。MatMulKernel.setArg(4, matB.dims.x); cl::
NDRange
LocalWorksize(kBlockSize,kBlockSize); cl::
NDRange
GlobalWorksize(matB.dims.x/(kB
浏览 4
提问于2013-01-15
得票数 1
回答已采纳
1
回答
理解工作项和工作组
、
基于我
的
问题:图像包含200 * 300 == 60000像素。对于最后一个参数cl::
NDRange
(20000),它没有,但只返回图像
的
一部分
。我也不明白,为什么我不能使用这个
内核
:std::string kernelCode =平台: AMD加速并行处理 设备:
浏览 7
提问于2014-02-07
得票数 1
回答已采纳
2
回答
图片
缓冲区
的
opencl
矢量/图片
缓冲区
的
海量数据
、
我是
openCL
的
新手,现在
的
程序有点小问题。我想在我
的
设备上移动大量
的
图像,我只需要在我
的
程序中读取它们。我
的
问题是,我
的
设备只允许我分配大约255mb
的
缓冲区
,因为程序应该能够处理不同
的
参数,并且还应该能够在几台机器上运行,我不知道我可以预先在设备上放置多少图像,但必须在运行时对其进行评估。为此,我想做一些事情,比如创建几个图像
缓冲区
(纹理)与我
的
图像存储在其
浏览 4
提问于2013-08-15
得票数 1
1
回答
有人能解释一下这个
OpenCL
程序出了什么问题吗?
、
、
、
、
我已经在这里包含了主机程序
的
主要部分,我怀疑它们是不正确
的
: const char *KernelSource = "\n" "__kernel void sumElements(有可能做这样
的
事情吗?我需要得到数组中所有元素
的
总和。
浏览 0
提问于2012-11-06
得票数 0
回答已采纳
4
回答
如何在Xcode4.1中调试
OpenCL
内核
?
、
、
、
我有一些
OpenCL
内核
不能正常工作,我很想在Xcode中调试它们。这个是可能
的
吗? 如果没有,有没有办法在基于CPU
的
内核
中使用printf()?当我在
内核
中使用printf()时,
OpenCL
编译器总是会给我一大堆错误。
浏览 2
提问于2011-08-27
得票数 7
回答已采纳
1
回答
write_imagef似乎没有改变任何值。
、
、
、
我试图用
opencl
编写纹理数据,并使用opengl显示它。其目标是比较具有互操作性和不具有互操作性
的
性能。但现在我无法产生纹理本身。首先,我想尝试在没有互操作性
的
情况下这样做:this->imageBuffer = new cl::Image2D(*context, CL_MEM_WRITE_ONLYenqueueWriteImage(*(this->imageBuffer), CL_TRUE, origin, range, 0, 0, this->im
浏览 4
提问于2020-12-04
得票数 0
回答已采纳
1
回答
OpenCL
image2d_t编写
的
大部分为零
、
我试图使用
OpenCL
和image2d_t对象来加速图像卷积。当我注意到
输出
是所有零
的
空白图像时,我将
OpenCL
内核
简化为输入和
输出
的
基本读取(如下所示)。稍微调整一下,我就可以把图像
的
几个零散像素写入
输出
图像。 在调用read_imageui()之前,我已经验证了图像
的
完整性,直到调用
OpenCL
内核
。我用CommandQueue::enqueueWriteImage()将映像
浏览 2
提问于2012-07-18
得票数 1
1
回答
每次执行后更新
opencl
中
的
缓冲区
、
所以我已经写了一段代码,它可以工作了,现在我想做
的
是多次调用clEnqueueNDRangeKernel(),每次执行后,我想用
输出
更新一个
缓冲区
(buffer Y)。我已经写了以下代码,我想知道它是否正确
的
函数。我没有为它编写单独
的
setkernelArg()命令。
浏览 5
提问于2018-08-12
得票数 0
1
回答
OpenCL
Copy-一次共享大量内容
我正在使用
OpenCL
实现一个解决方案,我想做以下事情,例如,你有一个大
的
数据数组,你想在图形处理器中复制一次,并让许多
内核
处理这些数据
的
批处理,并将结果存储在它们特定
的
输出
缓冲区
中。真正
的
问题是哪种方式更快?将每个
内核
与它需要
的
数组
的
一部分
排入队列,或者提前传递整个数组,并让每个
内核
(在相同
的
上下文中)处理所需
的
批处理,因为它
浏览 1
提问于2013-05-05
得票数 3
回答已采纳
2
回答
OpenCL
不发散if(),后面跟着printf(),导致大量减速和
内核
代码干扰最大工作组大小
、
我是
OpenCL
的
新手,我在几个地方读到过应该避免if/else结构
的
文章,主要是因为当线程
的
计算不同时(发散分支),就会出现明显
的
减速。一个观察:I有一个
内核
(128个工作组,每个工作组有128个工作项),它调用函数foo(),if/位于foo()内。,如果注释掉整个if()语句(条件+打印),整个程序(主主机+
内核
+ foo)需要大约90秒
的
来运行,如果在if()上删除所有打印并使用单个虚拟赋值(例如z=0),则程序大约需要2
浏览 6
提问于2021-08-11
得票数 2
回答已采纳
1
回答
opencl
-多次使用图像
、
、
, int height),它调用
内核
并读取
输出
图像数据)。第一个是OK和缩放
的
,但第二个是损坏
的
。我不知道为什么,src映像是CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,out映像是用scale函数创建
的
。是否有一条规则,不能在
内核
中多次使用图像?还是我错过了什么?编辑:它与cgo一起使用,因此createImage以void*
的
形式返回cl_mem,因此Go部分不需要包含cl.h。 在启动Go程序时调用init(
浏览 2
提问于2022-02-08
得票数 1
回答已采纳
2
回答
内核
不会等待事件
的
发生
、
、
我
的
内核
调用有问题。我
的
代码如下所示:...(512), cl::
NDRange
(128)), arrayFirst, arraySecond);kernel(); 它位于
内核
内部,但我没有保证"arrayFirst“
的
内存分配正确,我检查了
OpenCl
浏览 0
提问于2015-11-01
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Julia编程中实现GPU加速
C 标准库基础 IO 操作总结
重大事故!IO问题引发线上20台机器同时崩溃
15.4 InnoDB Architecture
Android C++系列:Linux文件IO操作(一)
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券