腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA
-
带有
派生类
的
动态
共享
内存
我一直在尝试运行我
的
一些其他代码,但我遇到了一些
动态
共享
内存
的
问题。根据文档(https://docs.nvidia.com/
cuda
/
cuda
-c-programming-guide/index.html#shared),我应该分配一个
内存
数组,然后将指针类型转换为指向该数组中特定位置
的
指针printf("%i", b_array[0].foo()); }
浏览 14
提问于2021-05-03
得票数 0
回答已采纳
1
回答
Opencl内核本地
内存
OpenCL提供
的
本地
内存
类似于
cuda
中
的
共享
内存
。在
cuda
中,我们必须使用
带有
共享
内存
的
易失性,因为如果您不将
共享
数组声明为易失性,那么编译器可以通过在寄存器中定位它们来自由地优化
共享
内存
中
的
位置。但如果线程之间相互通信,这将是一个问题。我
的
问题是,我们是否也必须在opencl内核中遵循相同
的</
浏览 1
提问于2019-07-30
得票数 1
2
回答
cudaGetLastError返回(0xb)
、
我正在尝试解决
CUDA
运行时错误。由
cuda
-gdb报告
的
调试信息(
带有
cuda
-memcheck ):warning:
Cuda
API error detected: cudaGetLastError returned (0xb) [Thread 0x7fa1a28c5700 (LWP 43041) exitedThread 0x7fa1
浏览 4
提问于2014-03-12
得票数 4
回答已采纳
1
回答
Cuda
共享
内存
在Nsight中显示为寄存器
、
、
我声明了
共享
内存
,并试图用Nsight 2.2来跟踪visual 2010。我用
的
是
CUDA
4.2和quadro 5000。在我
的
kernel.cu:在我
的
函数中调用内核: sampleGathering_SM_size =dimBlock.x<dimGrid, dimBlock, sampleGathering_SM_size >>>(dev_image, dev_
浏览 0
提问于2012-10-10
得票数 1
回答已采纳
1
回答
如何将所有可用
共享
内存
分配给
CUDA
中
的
单个块?
、
、
我想将SM
的
所有可用
共享
内存
分配给一个块。我这样做是因为我不希望多个块被分配给同一个SM。我
的
GPU卡有64 My (Shared+L1)
内存
。在我的当前配置中,48 L1分配给
共享
内存
,16 L1分配给L1。我编写了以下代码来使用所有可用
的
共享
内存
。__global__ void foo()... 我有两个问题: 如何确保所有
浏览 10
提问于2013-01-22
得票数 0
1
回答
我
的
内核代码能告诉我们有多少
共享
内存
可用吗?
、
、
、
运行设备端
CUDA
代码是否可能知道有多少(静态和/或
动态
)
共享
内存
分配给正在运行
的
内核网格
的
每个块?在主机端,您知道启动
的
内核有多少
共享
内存
(或将有多少
共享
内存
),因为您自己设置了这个值;但是设备端呢?在这个大小
的
上限内编译是很容易
的
,但是这些信息是不可用
的
(除非显式地传递给设备)。是否有一个GPU
的
机制来获得它?似乎
浏览 3
提问于2017-02-17
得票数 1
回答已采纳
2
回答
如何使用“尽可能多
的
动态
共享
mem”启动内核?
、
我们知道
CUDA
设备
的
共享
内存
容量非常有限,只有几十千字节。我们也知道内核不会发射(通常?曾经吗?)如果你想要太多
的
共享
记忆。我们还知道,可用
的
共享
内存
被您使用
的
代码中
的
静态分配和
动态
分配
的
共享
内存
所使用。 现在,cudaGetDeviceProperties()给了我们总
的
空间。但是,给定一个函数符号,是否有
浏览 3
提问于2016-05-04
得票数 0
回答已采纳
1
回答
Opengl:最大
共享
内存
大小小于硬件规范
、
、
、
如果我使用以下方法查询最大计算着色器
共享
内存
大小:glGetIntegerv(GL_MAX_COMPUTE_SHARED_MEMORY_SIZE然而,根据这个白皮书: 图灵L1
的
大小可以高达64 KB,再加上每SM
共享
内存
分配32 KB,也可以减少到32 KB,允许64 KB
的
分配用于
共享
内存
图灵
的
浏览 0
提问于2019-10-08
得票数 1
回答已采纳
1
回答
从多个MPI进程调用cudaMemcpy最可靠
的
方法是什么?
、
、
、
我正在开发一个库,它使用
CUDA
和MPI为微分方程
的
求解做
动态
工作负载分配。我有许多节点,每个节点都有一个NVIDIA GPU。当然,每个节点也有多个进程。我想要做
的
是
共享
例如gpu_input_buffer.u_buffer指向每个进程
的
地址。我已经读到,由于使用虚拟寻址,所以通过MPI
共享
指针值是禁忌
的
,但是由于所有GPU数据都驻留在一个
内存
空间中,而且由于gpu_input_buffer.u_buffer是一个设备指针,我认为这
浏览 4
提问于2020-03-02
得票数 0
回答已采纳
1
回答
CUDA
阵列约简
、
、
、
我知道有许多类似于这个问题
的
问题已经被解答了,但是我无法拼凑出来自它们
的
任何非常有用
的
东西,除了我可能是错误地索引了什么。__global__ void vectorSum(int *A, int *B, int numElements) { } if (tid == 0) B[blockIdx.x] = S[0];
浏览 2
提问于2013-06-11
得票数 1
1
回答
CUDA
如何在运行时在内核中创建
共享
内存
中
的
数组?
我
的
任务是运行大量
的
线程,每个线程做一个小
的
矩阵乘法。所有的小矩阵都已加载到全局
内存
中。我希望通过让每个线程将其小矩阵加载到
共享
内存
中,然后计算乘积来提高性能。但问题是,我不知道编译时矩阵
的
大小。在PC上,我会进行
动态
分配。但我不知道我是否可以在
共享
内存
上做到这一点。如果在内核中调用malloc只能在全局
内存
中进行分配(假设这样
的
调用是可能
的
),那么这也没有什么帮
浏览 1
提问于2011-12-25
得票数 1
回答已采纳
1
回答
在数据自动化系统中,我无法得到有效值
#include "
cuda
_runtime.h"#include <stdlib.hcudaMemcpy(B, dev_B, sizeof(int)*NUMBEROFMX, cudaMemcpyDeviceToHost);} 我学习
CUDA
此代码尚未完成,但我想为数组
的
和进行树约简。我希望在B
浏览 1
提问于2016-07-12
得票数 0
回答已采纳
2
回答
共享
内存
中
的
PTX可变长度缓冲区
、
、
、
我正在尝试在PTX中实现一个全局reduction内核,它使用
共享
内存
在线程块中进行reduction (就像所有
CUDA
C示例一样)。在
CUDA
C中,on可以在
共享
内存
中定义可变长度数组我怎样才能在PTX中获得等同
的
东西?我能做
的
就是定义一个变量并将其用作数组
的
基地址。希望它是在
共享
内存</em
浏览 4
提问于2012-10-26
得票数 2
1
回答
CUDA
中
的
动态
共享
内存
这里有一些类似于我将要问
的
问题,但我觉得它们都没有切中我真正想要
的
。我现在使用
的
是
CUDA
方法,它需要将两个数组定义到
共享
内存
中。现在,数组
的
大小由一个变量给出,该变量在开始执行后被读取到程序中。因此,我不能使用该变量来定义数组
的
大小,因为定义
共享
数组
的
大小需要知道编译时
的
值。据我所知,定义一个
共享
数组总是使
内存
地址成为第一个元素。这意味着我需要将我
的</
浏览 2
提问于2014-07-25
得票数 11
回答已采纳
1
回答
二维数组
的
CUDA
动态
共享
内存
分配
、
、
我想在
CUDA
的
共享
内存
中分配一个2d数组。我知道,要分配一个1d
共享
内存
数组,您必须将每个块
的
大小作为参数传递给内核。extern __shared__ int array[COMPILE_TIME_SIZE][]; 这可以做到吗?如果是这样,我
浏览 0
提问于2016-04-27
得票数 1
4
回答
在nvidia
cuda
内核中创建数组
、
、
嗨,我只是想知道是否有可能在nvidia
cuda
内核中执行以下操作{ ...
浏览 0
提问于2010-02-03
得票数 13
回答已采纳
1
回答
Cuda
:将主机数据复制到
共享
内存
数组
、
我在我
的
主机和设备上定义了一个结构。在主机中,我用值初始化这个结构
的
数组。h_s, objsize * sizeof(MyStruct), cudaMemcpyHostToDevice );在我
的
内核中其中一些是全局
的
,有些是简单
的
设备功能。为了简单和高效,我想使用一个
共享
内存
数组。theStructArray){ //How
浏览 1
提问于2015-05-11
得票数 2
回答已采纳
1
回答
“sharedMemBytes”参数在内核调用cuLaunchKernel()中
的
意义是什么?
、
我试图在JCuda中使用
共享
内存
来实现简单
的
矩阵乘法程序。[k] * bds[k][tx]; } }**Exception in thread "main" jcuda.CudaExcept
浏览 5
提问于2014-08-18
得票数 1
回答已采纳
1
回答
对于GPU上
的
非原子写入
的
弱保证?
、
、
、
OpenCL和
CUDA
已经包括了几年
的
原子操作(虽然显然不是每个
CUDA
或OpenCL设备都支持这些操作)。但是-我
的
问题是,由于非原子
的
写作,“与种族一起生活”
的
可能性。假设一个网格中
的
多个线程都写入全局
内存
中
的
相同位置。我们是否保证,当内核执行结束时,其中一个写操作
的
结果将出现在该位置,而不是一些垃圾?这个问题
的
相关参数(选择任意组合,编辑,除了已经得到答案
的
nVIDIA+<e
浏览 0
提问于2016-07-02
得票数 5
2
回答
在没有模板
的
情况下在
共享
内存
中创建数组,就像在PyOpenCL中一样
、
如何在
共享
内存
中创建数组,而不使用中看到
的
模板修改内核。或者使用模板是官方
的
方式吗?在PyOpenCL中,我可以通过设置内核参数在本地
内存
中创建数组 ...
浏览 1
提问于2011-06-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
掌握这些技巧,让你的程序性能和可维护性双双提升!
NVIDIA全系列GPU技术路线演进分析
CUDA的开发技术难点
C+之虚函数
从头开始进行CUDA编程:原子指令和互斥锁
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券