腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
vloadn
(
opencl
)
加载
未
分配
的
内存
opencl
我
使用
vloadn
加载
数据,并作为参数传递我想要读取
的
范围,它可以工作,但我想知道vload4
的
行为是什么。如果这可能会导致一些意想不到
的
问题,或者我完全可以安全地这样做。sum += vec.s0; else if (size == 1) { } } data_ptr是全局
内存
中两个浮点数
的
数组,但即使我只访问这两个浮点数,我也
使用
vloa
浏览 43
提问于2019-05-16
得票数 0
2
回答
OpenCL
vloadn
casting
opencl
、
vectorization
我
使用
OpenCL
优化算法,我想对内核进行矢量化。在数据对齐
的
情况下,
vloadn
/ vstoren比简单地转换为所需
的
向量慢吗?
浏览 0
提问于2013-10-31
得票数 0
2
回答
OpenCL
中
的
设备
内存
对象地址是否自动对齐?
opencl
、
gpgpu
、
memory-alignment
vstore4(a,0,dst) 根据,全局缓冲区src和dst
的
地址在
使用
vloadn
和vstoren时必须是4字节对齐
的
,否则结果不确定。我
的
问题是,在完成对clCreateBuffer
的
调用后,
OpenCL
是否会自动对齐全局设备地址?如果没有,如何确保正确对齐?(另外,local
内存
对象如何?)
浏览 2
提问于2019-12-23
得票数 0
1
回答
在Nvidia下读取共享/本地
内存
存储/
加载
库冲突
的
OpenCL
可执行文件硬件计数器
cuda
、
opencl
、
nvidia
、
performancecounter
、
bank-conflict
可以
使用
nvprof访问/读取CUDA exec
的
银行冲突计数器: nvprof --events shared_st_bank_conflict,shared_ld_bank_conflict my_cuda_exe但是,它不适用于
使用
OpenCL
的
代码,而不是CUDA代码。也许可以直接从
OpenCL
环境中提取PTX程序集,是否有方法将nvidia
OpenCL
编译器生成
的
PTX程序集
使用
带有CL_PROGRAM_BINA
浏览 5
提问于2020-10-18
得票数 1
1
回答
使用
OpenCL
,如何获得GPU
内存
使用
量?
c++
、
opencl
、
gpu
我正在寻找一种可靠
的
方法来确定
OpenCL
当前GPU
内存
的
使用
情况。但我正在寻找一个解决方案
的
AMD和
OpenCL
。我没有发现在
OpenCL
中是否有类似的功能,我也不知道是否有类似的功能。 在
分配
缓冲区之前,我不想知道
OpenCL
设备上有多少空闲
内存
,但是在
分配</
浏览 3
提问于2017-12-27
得票数 1
回答已采纳
1
回答
OpenCL
所有标记CL_MEM_USE_HOST_PTR用法不引用我
的
指针
opencl
、
gpu
、
intel
为了避免多个
内存
分配
,我尝试在
OpenCL
函数clCreateBuffer()中
使用
标志clCreateBuffer()。经过一些研究(逆向工程),我发现不管我
使用
什么标志,框架都调用操作系统
分配
函数。 也许我
的
观念错了?但是从文档来看,它应该
使用
DMA来访问主机
内存
,而不是
分配
新
内存
。我在英特尔设备(HD5500)上
使用
OpenCL
1.2
浏览 1
提问于2016-05-17
得票数 1
回答已采纳
1
回答
OpenCL
内存
一致性
memory
、
opencl
我有一个关于
OpenCL
内存
一致性模型
的
问题。考虑以下内核: __local lmem[1]; lmem[0] += 2;在这种情况下,是否需要任何同步或
内存
隔离来确保lmem[0] == 3但是,第6.12.9节
浏览 0
提问于2018-08-09
得票数 1
回答已采纳
1
回答
分析Android设备上
内存
的
使用
情况(堆、堆栈、GPU
的
OpenCL
缓冲区)
android
、
arm
、
gpu
、
opencl
、
mali
我正试图精确地测量我
的
应用程序
使用
的
内存
总量。我正在开发一个.so库,它在手机设备上
使用
GPU。在我
的
开发中,我主要
使用
C/C++和
OpenCL
,因此,我所有的
内存
分配
都是new/delete或clCreateBuffer/clReleaseMemObject。确切地说,我正在寻找以下价值: 堆栈上
使用
的
堆possible)Total 总
内存<
浏览 12
提问于2020-06-22
得票数 0
2
回答
为什么clCreateBuffer与CL_MEM_ALLOC_HOST_PTR一起
使用
离散设备
内存
?
opencl
、
nvidia
我有一段代码,在其中我
使用
clCreateBuffer和CL_MEM_ALLOC_HOST_PTR标志,我意识到这会从设备中
分配
内存
。这是对
的
吗?我从标准中遗漏了什么吗?CL_MEM_ALLOC_HOST_PTR:此标志指定应用程序希望
OpenCL
实现从主机访问
内存
中
分配
内存
。就我个人而言,我理解该缓冲区应该是一个主机端缓冲区,稍后可以
使用
clEnqueueMapBuffer进行映射。下面是有关我正在
使用
的<
浏览 7
提问于2017-02-02
得票数 0
1
回答
图形处理器上
的
OpenCL
内存
分配
限制
opencl
、
gpu
当
OpenCL
使用
clCreateBuffer进行
内存
分配
,并
使用
clEnqueueWriteBuffer进行写操作时,如何确定
分配
哪个
内存
(CPU
内存
或GPU
内存
)?如果
内存
分配
大于
内存
限制,程序是否会失败?(或者会有类似分页
的
功能)
浏览 6
提问于2014-05-18
得票数 0
2
回答
只有Malloc下32位地址
c
、
pointers
、
memory-management
、
malloc
我在64位机上有个关于malloc
的
问题。我想知道malloc是否可能只从较低
的
32位addr
分配
内存
。例如,只将
内存
从0 0xcfffffff
分配
给0 0xcfffffff,就像在32位计算机中那样。 更新:目前,我正在尝试为
使用
OpenCL
的
GPU设备实现
内存
管理工具。为了做到这一点,我需要拦截从
OpenCL
创建API
的
内存
浏览 2
提问于2015-01-07
得票数 0
2
回答
clCreateBuffer如何将CL_MEM_*_HOST_PTR用于内核
的
输出?
buffer
、
opencl
我尝试了一种从设备到主机读取
OpenCL
内核结果
的
隐式方法:clEnqueueNDRangeKernel(...); 在上面的代码片段中,我可以从output_data内核中得到正确
的
结果据我所知,CL_MEM_USE_HOST_PTR用于从主机到设备
的
传输,其方式是首先将input_
浏览 2
提问于2014-08-21
得票数 1
回答已采纳
1
回答
来自__constant
的
async_work_group_copy
constants
、
opencl
我说
的
对吗?如果是,为了加快访问速度,将__constant数据复制到__local
内存
的
首选方法是什么?现在我
使用
一个简单
的
for循环,其中每个工作项复制几个元素。
浏览 2
提问于2012-08-22
得票数 0
回答已采纳
1
回答
如何实际
分配
本地(共享)
内存
?
parallel-processing
、
cuda
、
opencl
、
shared-memory
、
nvidia
作为并行计算
的
一个抽象概念,每个线程块(CUDA) /工作组(
OpenCL
)
分配
本地(共享)
内存
,并在同一线程块(CUDA) /工作组(
OpenCL
)中
的
所有线程之间共享。 究竟是如何
分配
的
?它是由块/组
的
第一个线程
分配
的
,还是在
内存
控制器创建块之前
分配
的
?还是别的什么?
浏览 1
提问于2016-06-24
得票数 0
回答已采纳
1
回答
将全局
内存
用于(大)本地/专用临时。
OpenCL
中高效
的
数据结构
qt
、
memory-management
、
opencl
我正在用
OpenCL
编写一个算法,它只需要一个临时
的
数据结构(在执行过程中)。这将足够大,以超过大多数设备
的
本地或私有
内存
。所以我必须
使用
全局
内存
来存储这些数据。我在
OpenCL
中读到了不同
的
内存
类型,我知道随机访问全局
内存
真的很慢。在我
的
例子中,每个工作组访问全局
内存
中
的
不同地址,因此换句话说,我
使用
全局
内存
作为一种本地<em
浏览 4
提问于2011-09-08
得票数 4
回答已采纳
2
回答
OpenCL
-主机计算能力
的
浪费
opencl
、
gpgpu
我是
OpenCL
的
新手,请告诉我主机cpu只能用来给设备
分配
内存
,或者我们可以把它用作
openCL
设备。(因为
分配
完成后,主机cpu将处于空闲状态)。
浏览 0
提问于2012-02-16
得票数 0
回答已采纳
1
回答
如何利用
OpenCL
与2019年MacBook Pro 16“intel/amd实现64位寻址、全
内存
访问
macos
、
gpu
、
opencl
、
amd
在Windows下运行clinfo本质上告诉我,
OpenCL
支持
的
是2.0版本,寻址是64位,最大可
分配
内存
在7-8GB之间。在Mac下运行clinfo告诉我,
OpenCL
支持
的
版本是1.2,寻址是32位
的
小endian,最大可
分配
内存
大约是2GB。我猜想这意味着我运行
的
任何
OpenCL
代码都被限制在
使用
2GB,因为32位寻址(我以为限制是4GB),但我想知道( a)这是真的吗?如
浏览 8
提问于2022-07-06
得票数 0
回答已采纳
1
回答
我们什么时候应该
使用
CL_MEM_USE_HOST_PTR
opencl
我试图了解何时
使用
CL_MEM_USE_HOST_PTR
的
CPU-GPU由英特尔.读到,我偶然发现: 如果应用程序
使用
特定
的
内存
管理算法,或者如果要包装现有的本机应用程序
内存
分配
,则可以传递指向clCreateBuffer
的
指针以及CL_MEM_USE_HOST_PTR标志。有人能用一个例子解释一下:specific memory management algorithm和wrap existing native application memory
浏览 3
提问于2014-08-05
得票数 0
1
回答
OpenCL
中
的
图形处理器正在
使用
的
内存
opencl
有没有办法查询图形处理器设备,以找到
使用
中
的
内存
与
OpenCL
?我想尽可能多地
分配
内存
。
浏览 0
提问于2012-05-07
得票数 1
回答已采纳
2
回答
在没有模板
的
情况下在共享
内存
中创建数组,就像在PyOpenCL中一样
cuda
、
pycuda
如何在共享
内存
中创建数组,而不
使用
中看到
的
模板修改内核。或者
使用
模板是官方
的
方式吗?在PyOpenCL中,我可以通过设置内核参数在本地
内存
中创建数组 ...
浏览 1
提问于2011-06-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
OpenCL-1-编程四大模型介绍
谷歌称 TensorFlow 的 OpenCL 可以将推理性能提高一倍
如何在Julia编程中实现GPU加速
数据布局问题
高频面试题——你真的搞懂物理内存与虚拟内存了吗
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券