腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(5024)
视频
沙龙
1
回答
OpenCL
:
当
只
关心
线程
全局
ID
时
,
理想
的
块
数
是多少
?
、
、
、
因此,我是
OpenCL
的
新手,我正在努力更好地理解工作组和工作项。据我所知,单个组中
的
所有
线程
(项)都共享内存、原子操作和屏障同步。但是,如果我不需要这些好处,而
只
关心
任何给定
线程
的
全局
ID
,该怎么办?那么,如果我
只
关心
线程
的
总数,那么我应该如何选择每个组应该有多少个组和多少个项目?因此,我选
浏览 11
提问于2016-09-20
得票数 1
回答已采纳
3
回答
openCL
中
的
多维内核发布不起作用
、
、
我正试图在以下三个维度中启动
openCL
:size_t localWorkSize[2] = {32, 32};globalWorkSize, localWorkSize,但是只有32个
线程
被启动还有什么方法可以找到Cuda n
openCL
线程
的
等价性? 有人能帮忙吗。谢
浏览 0
提问于2019-04-05
得票数 1
回答已采纳
2
回答
为什么CUDA内核在做任何事情之前必须检查“`if (index <n)”?
、
这就是讨厌
的
样板
的
定义。显然,在索引>= n
的
地方,不应该调用内核。
OpenCL
不要求您进行这样
的
边界检查,它已经在内核之外为您完成了。
浏览 11
提问于2022-10-05
得票数 -3
回答已采纳
1
回答
OpenCL
-图像、
全局
和局部工作大小
的
块
处理
、
、
我正在尝试优化
OpenCL
中用于运动估计
的
块
匹配算法。基本上图像大小是384×288,并且假设图像被分成大小为16×16
的
多个不重叠
的
宏
块
,则总共可以实现24x18个宏
块
。在每个宏
块
位置,必须估计两个连续帧中
的
运动(包括使用16x16
块
搜索像素强度-灰度
的
绝对差异总和
的
附近区域),在启动内核
时
将
全局
大小分别设置为24和18是否正确? 这是正确<e
浏览 0
提问于2017-02-09
得票数 0
2
回答
在CPU上使用
OpenCL
将一个数组复制到另一个数组比C++代码慢得多。
、
、
、
我比较了运行在CPU上
的
OpenCL
代码
的
性能,它简单地将数据从一个2D数组复制到另一个2D数组中,而纯C++代码则做了同样
的
事情。我在
OpenCL
代码中使用了一个工作组来进行公平
的
比较。我使用了英特尔
的
OpenCL
驱动程序和英特尔编译器。
OpenCL
代码比CPU代码慢5倍。对于如何使
OpenCL
代码与C++代码同步,有什么建议吗?谢谢#include <cstdio
浏览 3
提问于2013-11-20
得票数 2
回答已采纳
1
回答
二维阵列使用纹理缓存/ Image2D
的
缺点?
、
、
、
、
当
访问
全局
内存中
的
2D数组
时
,使用纹理缓存有许多好处,比如过滤,而不必那么
关心
内存访问模式。“数据自动化系统程序编制指南”
只
指出了一个缺点: 但是,在同一个内核调用中,纹理缓存与
全局
内存写入不保持一致,因此任何纹理获取到通过同一个内核调用中
的
全局
写入写入
的
地址都会返回未定义
的
数据。如果我不需要这样做,因为我从来没有写入我读过
的
内存,那么在使用纹理缓存(或者Image2D,因为我是在
浏览 2
提问于2011-08-31
得票数 3
1
回答
如何规划GPU上
的
最小二乘计算?
、
在开始处理
时
,它一次
只
做一次调整,因此它将调整分成任务,每个任务都需要一些点,所有的点都在一个三角形中。每个
线程
从队列中获取一个任务,并计算一个小方阵和一个小列向量。
当
它们都准备好后,调整例程将矩阵和向量相加,并完成最小二乘计算。三角形(x,y,z)
的
三个角,,点
的
坐标(x,y,z)。5.3.0-7625-generic, LLVM 9.0.0) Device Vendor
浏览 0
提问于2020-07-14
得票数 0
3
回答
图形处理器中
的
并行性- CUDA /
OpenCL
、
我对图形处理器上
的
CUDA或
OpenCL
代码
的
并行性有一个一般性
的
问题。我使用
的
是NVIDIA GTX 470。 我在Cuda编程指南中简短地阅读了一下,但没有找到相关
的
答案,因此在这里提问。我有一个顶级函数,它调用CUDA内核(对于相同
的
内核,我有它
的
OpenCL
版本)。对于3个不同
的
数据集(图像数据R,G,B),这个顶级函数本身在主函数
的
“for循环”中被调用了3次,而实际
的
c
浏览 1
提问于2011-12-22
得票数 4
回答已采纳
3
回答
__constant内存
的
访问性能与
OpenCL
上
的
__global内存相同
CUDA上
的
常量记忆是一种特定
的
记忆。而且它比全球记忆更快。但在
OpenCL
的
规范中。我明白以下几个字。__constant或常量地址空间名称用于描述在
全局
内存中分配并以只读变量形式访问
的
内核中
的
变量。 所以__constant内存来自__global内存。这是否意味着它与__global内存具有相同
的
访问性能?
浏览 2
提问于2012-08-28
得票数 3
回答已采纳
3
回答
OpenCL
与中央调度
的
并发编程
、
、
、
、
随着
OpenCL
2.0
的
引入,
OpenCL
似乎具备了GCD
的
许多特性,比如CLang/
OpenCL
风格
的
块
和队列。查看它们各自
的
功能集,我想知道
OpenCL
是否能够完成GCD /lib分派所能做
的
所有事情,但是否具有将计算导向GPU和CPU
的
额外能力--或者GCD是否可以提供与
OpenCL
无关
的
更多功能。具体来说,我
的
问题是
浏览 8
提问于2014-02-01
得票数 4
回答已采纳
1
回答
NServiceBus -商业许可证
的
建议工作
线程
数
、
、
、
我们最近将我们
的
NServiceBus从社区升级到商业,它获得了2个内核
的
许可。当我在线查看示例
时
,我
只
看到了1个工作
线程
的
配置。
当
涉及到商业NServiceBus
时
,建议
的
每个核心
的
工作
线程
数
是多少
?或者,在给定系统内存/处理器资源数量
的
情况下,是否存在多个工作
线程
?或者这是我需要调整
的
东西,直到我
浏览 0
提问于2011-08-12
得票数 2
回答已采纳
1
回答
为什么clEnqueueNDRangeKernel会因为浮点异常而崩溃?
、
、
、
、
但它得到
的
不是排队或返回错误,而是一个浮点异常信号(SIGFPE)。 由于IP原因,我无法深入讨论,我很难提供触发此信号
的
示例。但是-似乎没有任何合法
的
理由发生这种情况。是否存在该函数本身实际执行无效浮点操作
的
已知情况?
浏览 5
提问于2021-06-06
得票数 0
2
回答
从Windows中检测和恢复?
、
、
我在一些
OpenCL
代码中遇到了一个奇怪
的
问题,我每做一次工作,就会启动并重新设置GPU。这个令人反感
的
内核
只
运行150 to,在TDR杀死它之前将运行数千次(在许多小时内),所以我确信内核本身并不是罪魁祸首。是否有一种方法可以检测内核是否已经关闭,以便能够优雅地处理它?
浏览 7
提问于2014-04-07
得票数 1
回答已采纳
1
回答
20个cpu可以运行多少个
线程
,每个cpu可以运行一个
线程
?
我
的
配置:CPU op-mode(s): 32-bit, 64-bitCore(s) per socket: 1NUMA node(s): 1L2 cache: 1024KNUMA node0 CPU
浏览 2
提问于2019-11-12
得票数 0
3
回答
枚举器
线程
在获得锁后是否安全?
、
、
我想知道返回
的
枚举
数
是否
线程
安全:{ return _list.GetEnumerator();} 如果我有多个
线程
在这个列表中添加数据(也在lock()
块
中),并且有一个
线程
枚举这个列表
的
内容。
当
枚举
线程
完成
时
,它会清除列表。那么使用从此方法获得
的</
浏览 8
提问于2014-07-18
得票数 4
回答已采纳
1
回答
在
OpenCL
中,
当
工作组大小不是体系结构
的
一部分时,__local内存如何才能更快?
、
、
如果这个问题很愚蠢,请为我
的
天真道歉,我是GPGPU编程
的
新手。我
的
问题是,既然设备
的
架构不能改变,那么当用户选择工作组
的
大小(取决于可分性)
时
,__local内存如何针对本地工作组中
的
项目访问进行优化?
浏览 0
提问于2016-07-12
得票数 2
3
回答
循环执行模型
的
OpenCL
、
、
、
我目前正在学习
OpenCL
,并看到了下面的代码片段:int ti = get_local_
id
(0); 这里是我
的
问题(主要与for循环有关): 在
OpenCL
中,for-循环究竟是如何执行
的
?我知道所有工作项都运行相同
的</em
浏览 5
提问于2014-06-02
得票数 5
1
回答
使用向量类型提高
OpenCL
内核性能
、
我有以下
OpenCL
内核,它将值从一个缓冲区复制到另一个缓冲区,也可以将值反转(“反向”arg可以是1或-1):在最近阅读了关于向量
的
文章之后,我
浏览 0
提问于2019-10-23
得票数 2
回答已采纳
2
回答
如何优化我
的
OpenCl
内核
我已经分离出了一些不同
的
函数,但它们需要在不同
的
工作项中并行运行。因此,
当
内核被调用时,它需要决定必须执行哪个函数。code int idx = get_global_
id
call_calc2(); call_calc3();} 如果有256/512工作项,则此代码示例将不是正确
浏览 0
提问于2014-05-14
得票数 1
回答已采纳
1
回答
如何避免
OpenCL
中
的
常量内存复制
、
、
我编写了模拟简单热流
的
C++应用程序。它正在使用
OpenCL
进行计算。
OpenCL
内核采用二维(n x n)数组来表示温度值及其大小(n)。它在每次循环后返回具有温度
的
新数组:int t_
id
= get_global_
id
(0);{ m_new[t_
id
/ n][t_
id
% n]= average of its and its neighbors (top,
浏览 1
提问于2016-11-19
得票数 1
回答已采纳
点击加载更多
相关
资讯
Python线程5分钟完全解读
CUDA性能优化实战:7个步骤让并行归约算法提升10倍效率
MySQL 系统变量配置基础
如何在Julia编程中实现GPU加速
如果MySQL的自增ID用完了怎么办?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券