CUDA -带有派生类的动态共享内存_RuntimeError:带有预训练模型的CUDA内存不足_CUDA:指向中间共享内存位置的指针意外行为 - 腾讯云开发者社区

我一直在尝试运行我的一些其他代码，但我遇到了一些动态共享内存的问题。根据文档(https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#shared)，我应该分配一个内存数组，然后将指针类型转换为指向该数组中特定位置的指针printf("%i", b_array[0].foo()); }

浏览 14提问于2021-05-03得票数 0

回答已采纳

1回答

Opencl内核本地内存

OpenCL提供的本地内存类似于cuda中的共享内存。在cuda中，我们必须使用带有共享内存的易失性，因为如果您不将共享数组声明为易失性，那么编译器可以通过在寄存器中定位它们来自由地优化共享内存中的位置。但如果线程之间相互通信，这将是一个问题。我的问题是，我们是否也必须在opencl内核中遵循相同的</

浏览 1提问于2019-07-30得票数 1

2回答

cudaGetLastError返回(0xb)

、

我正在尝试解决CUDA运行时错误。由cuda-gdb报告的调试信息(带有cuda-memcheck )：warning: Cuda API error detected: cudaGetLastError returned (0xb) [Thread 0x7fa1a28c5700 (LWP 43041) exitedThread 0x7fa1

浏览 4提问于2014-03-12得票数 4

回答已采纳

1回答

Cuda共享内存在Nsight中显示为寄存器

、、

我声明了共享内存，并试图用Nsight 2.2来跟踪visual 2010。我用的是CUDA 4.2和quadro 5000。在我的kernel.cu：在我的函数中调用内核： sampleGathering_SM_size =dimBlock.x<dimGrid, dimBlock, sampleGathering_SM_size >>>(dev_image, dev_

浏览 0提问于2012-10-10得票数 1

回答已采纳

1回答

如何将所有可用共享内存分配给CUDA中的单个块？

、、

我想将SM的所有可用共享内存分配给一个块。我这样做是因为我不希望多个块被分配给同一个SM。我的GPU卡有64 My (Shared+L1)内存。在我的当前配置中，48 L1分配给共享内存，16 L1分配给L1。我编写了以下代码来使用所有可用的共享内存。__global__ void foo()... 我有两个问题：如何确保所有

浏览 10提问于2013-01-22得票数 0

1回答

我的内核代码能告诉我们有多少共享内存可用吗？

、、、

运行设备端CUDA代码是否可能知道有多少(静态和/或动态)共享内存分配给正在运行的内核网格的每个块？在主机端，您知道启动的内核有多少共享内存(或将有多少共享内存)，因为您自己设置了这个值；但是设备端呢？在这个大小的上限内编译是很容易的，但是这些信息是不可用的(除非显式地传递给设备)。是否有一个GPU的机制来获得它？似乎

浏览 3提问于2017-02-17得票数 1

回答已采纳

2回答

如何使用“尽可能多的动态共享mem”启动内核？

、

我们知道CUDA设备的共享内存容量非常有限，只有几十千字节。我们也知道内核不会发射(通常？曾经吗？)如果你想要太多的共享记忆。我们还知道，可用的共享内存被您使用的代码中的静态分配和动态分配的共享内存所使用。现在，cudaGetDeviceProperties()给了我们总的空间。但是，给定一个函数符号，是否有

浏览 3提问于2016-05-04得票数 0

回答已采纳

1回答

Opengl:最大共享内存大小小于硬件规范

、、、

如果我使用以下方法查询最大计算着色器共享内存大小：glGetIntegerv(GL_MAX_COMPUTE_SHARED_MEMORY_SIZE然而，根据这个白皮书：图灵L1的大小可以高达64 KB，再加上每SM共享内存分配32 KB，也可以减少到32 KB，允许64 KB的分配用于共享内存图灵的

浏览 0提问于2019-10-08得票数 1

回答已采纳

1回答

从多个MPI进程调用cudaMemcpy最可靠的方法是什么？

、、、

我正在开发一个库，它使用CUDA和MPI为微分方程的求解做动态工作负载分配。我有许多节点，每个节点都有一个NVIDIA GPU。当然，每个节点也有多个进程。我想要做的是共享例如gpu_input_buffer.u_buffer指向每个进程的地址。我已经读到，由于使用虚拟寻址，所以通过MPI共享指针值是禁忌的，但是由于所有GPU数据都驻留在一个内存空间中，而且由于gpu_input_buffer.u_buffer是一个设备指针，我认为这

浏览 4提问于2020-03-02得票数 0

回答已采纳

1回答

CUDA阵列约简

、、、

我知道有许多类似于这个问题的问题已经被解答了，但是我无法拼凑出来自它们的任何非常有用的东西，除了我可能是错误地索引了什么。__global__ void vectorSum(int *A, int *B, int numElements) { } if (tid == 0) B[blockIdx.x] = S[0];

浏览 2提问于2013-06-11得票数 1

1回答

CUDA如何在运行时在内核中创建共享内存中的数组？

我的任务是运行大量的线程，每个线程做一个小的矩阵乘法。所有的小矩阵都已加载到全局内存中。我希望通过让每个线程将其小矩阵加载到共享内存中，然后计算乘积来提高性能。但问题是，我不知道编译时矩阵的大小。在PC上，我会进行动态分配。但我不知道我是否可以在共享内存上做到这一点。如果在内核中调用malloc只能在全局内存中进行分配(假设这样的调用是可能的)，那么这也没有什么帮

浏览 1提问于2011-12-25得票数 1

回答已采纳

1回答

在数据自动化系统中，我无法得到有效值

#include "cuda_runtime.h"#include <stdlib.hcudaMemcpy(B, dev_B, sizeof(int)*NUMBEROFMX, cudaMemcpyDeviceToHost);} 我学习CUDA此代码尚未完成，但我想为数组的和进行树约简。我希望在B

浏览 1提问于2016-07-12得票数 0

回答已采纳

2回答

共享内存中的PTX可变长度缓冲区

、、、

我正在尝试在PTX中实现一个全局reduction内核，它使用共享内存在线程块中进行reduction (就像所有CUDA C示例一样)。在CUDA C中，on可以在共享内存中定义可变长度数组我怎样才能在PTX中获得等同的东西？我能做的就是定义一个变量并将其用作数组的基地址。希望它是在共享内存</em

浏览 4提问于2012-10-26得票数 2

1回答

CUDA中的动态共享内存

这里有一些类似于我将要问的问题，但我觉得它们都没有切中我真正想要的。我现在使用的是CUDA方法，它需要将两个数组定义到共享内存中。现在，数组的大小由一个变量给出，该变量在开始执行后被读取到程序中。因此，我不能使用该变量来定义数组的大小，因为定义共享数组的大小需要知道编译时的值。据我所知，定义一个共享数组总是使内存地址成为第一个元素。这意味着我需要将我的</

浏览 2提问于2014-07-25得票数 11

回答已采纳

1回答

二维数组的CUDA动态共享内存分配

、、

我想在CUDA的共享内存中分配一个2d数组。我知道，要分配一个1d共享内存数组，您必须将每个块的大小作为参数传递给内核。extern __shared__ int array[COMPILE_TIME_SIZE][]; 这可以做到吗？如果是这样，我

浏览 0提问于2016-04-27得票数 1

4回答

在nvidia cuda内核中创建数组

、、

嗨，我只是想知道是否有可能在nvidia cuda内核中执行以下操作{ ...

浏览 0提问于2010-02-03得票数 13

回答已采纳

1回答

Cuda:将主机数据复制到共享内存数组

、

我在我的主机和设备上定义了一个结构。在主机中，我用值初始化这个结构的数组。h_s, objsize * sizeof(MyStruct), cudaMemcpyHostToDevice );在我的内核中其中一些是全局的，有些是简单的设备功能。为了简单和高效，我想使用一个共享内存数组。theStructArray){ //How

浏览 1提问于2015-05-11得票数 2

回答已采纳

1回答

“sharedMemBytes”参数在内核调用cuLaunchKernel()中的意义是什么？

、

我试图在JCuda中使用共享内存来实现简单的矩阵乘法程序。[k] * bds[k][tx]; } }**Exception in thread "main" jcuda.CudaExcept

浏览 5提问于2014-08-18得票数 1

回答已采纳

1回答

对于GPU上的非原子写入的弱保证？

、、、

OpenCL和CUDA已经包括了几年的原子操作(虽然显然不是每个CUDA或OpenCL设备都支持这些操作)。但是-我的问题是，由于非原子的写作，“与种族一起生活”的可能性。假设一个网格中的多个线程都写入全局内存中的相同位置。我们是否保证，当内核执行结束时，其中一个写操作的结果将出现在该位置，而不是一些垃圾？这个问题的相关参数(选择任意组合，编辑，除了已经得到答案的nVIDIA+<e

浏览 0提问于2016-07-02得票数 5

2回答

在没有模板的情况下在共享内存中创建数组，就像在PyOpenCL中一样

、

如何在共享内存中创建数组，而不使用中看到的模板修改内核。或者使用模板是官方的方式吗？在PyOpenCL中，我可以通过设置内核参数在本地内存中创建数组 ...

浏览 1提问于2011-06-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云