CUDA我的共享内存代码不工作，我遗漏了什么？

文章/答案/技术大牛

发布

1回答

我正在尝试实现动态共享内存，但它不起作用。请检查代码并告诉我我遗漏了什么-问题似乎与gpu_configuration ()有关。下面是一个基本的动态共享内存代码。我已经将其与https://github.com/NVIDIA-developer-blog/code-samples/blob/maste

浏览 17提问于2019-07-02得票数 1

回答已采纳

1回答

内核启动时出现"invalid device error“错误

、

我正在尝试从多个OpenMP线程使用多个CUDA设备。设备从主线程初始化(即在设备上分配内存)，然后我从不同的线程使用cudaSetDevice在不同的设备上启动内核。线程不共享设备，每个线程对其设备具有独占访问权限。据我所知，这应该可以很好地工作。然而，当我从一个非主线程(即omp_get_thread_num() != 0)的CUDA线程启动设备上的内核时，我</em

浏览 2提问于2012-10-26得票数 0

回答已采纳

1回答

GTX 970的CUDA器件特性

、、

打电话时cuda_error = cudaGetDevice(&device);cuda_error = cudaGetDeviceProperties(&prop, device);在GTX 970上

浏览 4提问于2015-03-03得票数 0

回答已采纳

1回答

线程写入重叠时访问CUDA中的共享内存

、、

我正在编写一个CUDA实现，为国际象棋引擎生成“神奇的比特板”。我有一个有效的CUDA版本，但我正在尝试优化它。然而，我认为主要的问题是访问内存。下面的代码部分确实返回了一个神奇的数字，但它是不正确的。我有一个不同的版本，每个线程生成自己的编号并检查每个索引本身，但这似乎不是CUDA的方法。编

浏览 3提问于2014-05-19得票数 0

回答已采纳

1回答

“无效设备序号”(cudaErrorInvalidDevice)返回cudaIpcOpenMemHandle

当我试图打开IPC内存句柄时，我会得到cudaErrorInvalidDevice，但我不知道为什么。我在CentOS 6.6上使用四种CentOS。handle_cuda_error(cudaSetDevice(device_id)); handle_cuda_error(cudaIpcGetMemHandle(&my_ipcmemhandle, (void *

浏览 6提问于2015-08-19得票数 1

回答已采纳

2回答

Graphics.Polygon代码不工作-我遗漏了什么？

、、、

我的小代码创建现代艺术到全屏幕大小的形式画布与不同的形状。我可以使椭圆，矩形和直线工作，但不是多边形。有人能帮我吗？(版本: Delphi社区版) uses ....

浏览 27提问于2020-05-11得票数 1

1回答

cuda并行还原#6工作，还原#7失败

、、

我使用这个代码来减少： #define blocksize 1024#define size blocksize*gridsize###################

浏览 1提问于2018-07-28得票数 0

回答已采纳

1回答

在Cuda中使用最大共享内存

我不能使用超过48K的共享内存(在V100上，Cuda10.2)cudaFuncSetAttribute(my_kernel, cudaFuncAttributePreferredSharedMemoryCarveout我在my_kernel中使用启动边界和动态共享内存。my_kernel<<<grd, blk, 64 * 1024, my_stream>&

浏览 1提问于2020-09-05得票数 2

回答已采纳

1回答

在CUDA* Fortran中确定共享内存使用情况*

、

我一直在写一些基本的CUDA Fortran代码。我希望能够确定我的程序使用的每个线程块的共享内存量(用于占用率计算)。我一直在用-Mcuda=ptxinfo编译，希望能找到这些信息。如果我删除了shared属性，那么我会得到 ptxas信息: device_procedures_main_kernel_的函数属性432字节堆栈帧，1124字节溢

浏览 1提问于2014-11-27得票数 0

4回答

将for循环放入CUDA内核

、、

或者这是一件很常见的事情吗？

浏览 0提问于2011-08-11得票数 9

回答已采纳

2回答

不理解与_shared_内存中的结构数组相关的cuda中的此警告

我的代码运行良好，但我不明白这个警告。struct facet_cuda {IS_Vector_cuda normal;IS_Vector_cuda是一个具有默认构造函数的</

浏览 2提问于2013-11-27得票数 2

回答已采纳

1回答

非确定性输出的CUDA调试过程

、、、

我正在我的Ubuntu 10.10 64位系统上调试我的基于CUDA 4.0/推力的图像重建代码，我一直在尝试找出如何调试这个运行时错误，其中我的输出图像显示为一些随机的“噪声”。在我的代码中没有随机数生成器输出，所以我希望每次运行的输出都是一致的，即使它是错误的。

浏览 0提问于2011-07-21得票数 4

回答已采纳

1回答

cuda 4.0如何支持递归

我想知道，cuda 4.0是否支持使用本地内存或共享内存的递归？我必须自己使用全局内存来维护堆栈，因为系统级别的递归不能支持我的程序(可能是太多级别的递归)。当递归变得更深时，线程就停止工作。所以我真的想知道在CUDA中默认的递归是如何工作的，它是否使用共享内存的本地

浏览 2提问于2013-09-25得票数 4

2回答

通过归约计算CUDA中位数

、

我可能正在做一些非常愚蠢的事情，但我似乎不能让这种简化工作(可能已经有一个库这样做了，但这是为了自学，所以请容忍我)。我正在尝试通过采用中位数方法来查找整数条目数组的中位数，我已经编写了以下代码： extern： gpuMedOdd<<<9, numEntries / 9>>>(d_ent

浏览 21提问于2013-03-02得票数 1

回答已采纳

1回答

我可以使用Numba共享内存来加速Cupy吗？

、、、、

macroscopic(fin,u,v): 这是我的代码的一部分0], 上一个是常量数组v的定义def macroscopic(fin,= cuda.threadIdx.x ty

浏览 15提问于2020-05-26得票数 1

1回答

库达: cudaMallocManaged处理出口吗？

、

如果(在C++ +CUDA中) cudaMallocManaged()用于在主机和GPU内存中分配共享数组，而程序遇到(例如在主机代码中)一个exit(1)，这是否会永久地在GPU中留下悬空内存？我猜答案是不基于的，但我不确定GPU是否有某种回收机制。

浏览 2提问于2018-10-04得票数 0

回答已采纳

1回答

将CUDA或OpenCL编译为llvm IR

、、、

Clang可以将CUDA(不完整)或OpenCL转换为llvm。它如何保留“共享”关键字，这样它才能知道共享内存和全局内存之间的区别？

浏览 0提问于2012-01-10得票数 2

1回答

需要动态分配超过硬件容量的共享内存的CUDA内核启动

、

据我所知，下面代码中的变量shared_mem_size是为每个块分配的共享内存量。但是，当总共享内存大小(BLOCKS_GRID * shared_mem_size)超过硬件可用共享内存的总容量时，会发生什么情况呢？

浏览 1提问于2013-11-06得票数 0

回答已采纳

1回答

库达活动翘曲与常驻翘曲

、、

在CUDA中的占用定义为常驻 CUDA翘曲与active one有什么区别？从我在web上的研究来看，似乎一个块在整个执行过程中都是驻留在SM上的(即与其寄存器/共享内存文件一起分配的)。和“积极”有什么区别吗？如果我有一个内核，它很少使用寄存器和共享</

浏览 0提问于2017-01-29得票数 0

回答已采纳

1回答

pycuda.debug实际上是做什么的？

、、、、

作为一个更大的项目的一部分，我遇到了一个奇怪的始终如一的bug，我无法理解它，但它是一个典型的“黑盒”bug；当使用cuda-gdb python -m pycuda.debug prog.py -args如果我放弃pycuda.debug，它就会崩溃。一致地，在多内核执行中的完全相同的点。为了解释，我有(目前有三个)内核，用于不同的网格和块排列，以解决更大的优

浏览 0提问于2011-04-25得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云