如何将函数作为cuda内核参数传递？

文章/答案/技术大牛

发布

1回答

、、

我想创建一个通用的cuda内核，它接受一个可调用的对象作为参数(比如lambda或function)并调用它。我在将设备函数作为参数传递给cuda内核时遇到了问题。我有计算能力为3.5的cuda 9.2。我在Debian10上使用的是gcc 9.3。

浏览 15提问于2019-07-30得票数 0

回答已采纳

1回答

将变量传递给CUDA内核

、

所以，我正在用CUDA C++编写一个PDE解算器。求解器是一个函数，它反过来调用cuda内核来解决PDE问题。现在，我想使用PDE参数作为内核的参数。我想传递整数，以及浮动，即非指针变量，但是找不到正确的语法。我不想使用参数作为全局常量。我想使用它们作为内核的参数。有没有办法这样做？你的帮助是非常感谢的。

浏览 1提问于2018-07-10得票数 1

回答已采纳

1回答

在CUDA中将非POD类型作为global函数参数传递

我知道一般情况下，非POD类型不能作为参数传递给CUDA内核启动。但在我能找到解释的地方，我指的是一个可靠的来源，比如一本书，一本数据自动化系统手册，等等。

浏览 0提问于2013-11-16得票数 1

回答已采纳

2回答

CUDA内核的参数

、

当为特定的线程配置调用CUDA内核时，是否有任何严格的规则在哪些内存空间(设备/主机)内核参数中驻留以及它们应该是什么类型？假设我启动了一个一维线程网格我可以将整数参数int foo直接传递给CUDA内核，它是主机还是应该对单个整数进行cudaMalloc内存，比如dev_

浏览 4提问于2011-11-28得票数 8

回答已采纳

2回答

如何将设备函数作为输入参数传递给主机端函数？

、、、

我只想把设备函数作为主机函数的参数传递，当然，主机函数可以用这个设备侧函数启动一些内核。我尝试了通常的C++方式(通过指针/引用传递)，而CUDA调试器告诉我内核不能启动。

浏览 2提问于2013-08-28得票数 0

1回答

在cuda中有没有模板化的数学函数？

、

我一直在寻找cuda中的模板化数学函数，但我似乎找不到一个。在普通的c++中，如果我调用std::sqrt，它是模板化的，并且会根据参数是浮点型还是双精度型来执行不同的版本。我想要这样的CUDA设备代码。我的内核将实型作为模板参数传递，现在我必须选择使用sqrtf作为float，或者使用sqrt作为double。我想推力可能会有这个功能，但它只对复数有效。

浏览 0提问于2016-03-24得票数 5

0回答

将统一内存指针传递给内核会减慢程序的运行速度

、、

在CUDA中，向内核传递统一内存指针会减慢程序运行速度吗？为什么传递一个指针需要花费太多的时间？指针？我应该如何提高程序的速度？

浏览 8提问于2017-06-15得票数 0

回答已采纳

2回答

是否有相当于std::numeric_limits的数据自动化系统？

、

我想确定一个CUDA内核中的最大int值。不幸的是，我找不到任何类似于std::numeric_limits的数据自动化系统。尝试使用::std函数会导致错误：是否有一

浏览 3提问于2014-06-30得票数 10

回答已采纳

1回答

我想在cuda内核中执行一些虚拟方法，但我不想在同一个内核中创建对象，而是希望在主机上创建它并将其复制到gpu内存中。我成功地在内核中创建了对象，并调用了一个虚拟方法。复制对象时会出现问题。这是有意义的，因为很明显虚函数指针是假的。发生的事情就是"Cuda网格启动失败“，至少Nsight是这么说的。但是，当查看SASS时，它会在虚函数指针的取消引用时崩溃，这是有意义的。我的想法是首先运行一个不同的内核，它创建虚拟对象，并在复制对象之前提取虚

浏览 2提问于2012-10-03得票数 6

回答已采纳

5回答

将数组/指针作为模板参数传递

、、、、

我正在尝试创建以下类型的模板函数：__global__ void smoothFilterColumns(const不幸的是，它不允许我像这样创建这个函数的实例：smoothFilterColumns<true, ptrKernel>(dxBuffer->cuda_image, dxOutput->cuda_image); 我尝试过各种

浏览 7提问于2011-04-08得票数 2

回答已采纳

1回答

将参数按值传递给内核函数时，参数在哪里被复制？

、

我是CUDA编程的初学者，有一个问题。当我按值传递参数时，如下所示： // some operations由于变量a和b被传递给内核函数添加作为函数调用堆栈中的复制值如果我是对的，是在GPU或主机的主内存中复制这些参数的额外内存空间吗？我想知道这个问题的原因是我应该把一个大的结构传递给内

浏览 5提问于2017-11-25得票数 3

2回答

我可以使用外部OpenCl库吗？

我想使用OpenCL在Cuda上执行这些任务，这样我就可以使用GPU的并行功能在大型data.So上并行执行这些任务，我的问题是：我可以使用这些libraries?Also编写内核吗?如何将这些库的复杂数据结构的对象作为参数传递给内核/(具体地说，如何创建这些复杂对象的缓冲区？？

浏览 4提问于2012-05-29得票数 3

回答已采纳

2回答

作为类成员的库达纹理？

、、

为了解决CUDA纹理必须是全局变量这一限制，我尝试了以下方法：不起作用。纹理不能作为参数传递(也不能通过指针或引用传递)，并且内核不识别数组名，除非通过索引传递。

浏览 3提问于2014-03-01得票数 1

2回答

将结构传递给cupy中的原始内核

、、、

我有一些以float3、int2等结构作为参数的CUDA内核。我似乎无法通过cupy rawkernel接口将参数正确地传递给这些内核。我曾尝试为float3参数传递一个由3个浮点数组成的一维CUPY数组，但该参数在内核中未被正确解释。我尝试传递一个ctypes结构，但是返回了一个不支持的类型错误。如果你检查一下cupy的源代码中的函数模块，它看起来应该可以工作。

浏览 23提问于2019-12-06得票数 0

回答已采纳

2回答

cuLaunchKernel和CUDA_ERROR_INVALID_HANDLE失败的原因是什么？

、

我正在使用cudLaunchKernel()驱动程序API函数启动我编译的CUDA内核。我在kernelParams数组中传递参数，并将nullptr传递给extra参数。不幸的是，这失败了，错误是：CUDA_ERROR_INVALID_HANDLE。为什么？我检查了，看看函数在什么情况下可能会失败，编辑--它用CUDA_ERROR_INVALID_VALUE讨论失败(不是一回事)。它没有讨论我所犯的错误。由于cuL

浏览 6提问于2020-07-07得票数 1

回答已采纳

1回答

Numba cuda动态共享内存:多类型？

、、

我知道，我可以为numba编译的CUDA内核创建一个动态共享内存数组，方法是将大小作为第四个参数传递给内核调用：def foo_kernel(...) -> None:从这里开始，如果我想将a作为几个数组来处理，我可以对其进行切片a = cuda.shared.array(0, nb.int32)

浏览 3提问于2022-11-13得票数 -2

1回答

CUDA内核对象参数的本地副本

我从那里了解到，传递给CUDA内核的参数是通过常量内存传递的(对于计算能力2.0及更高版本)，如果修改，它们将作为本地副本存储在寄存器或堆栈中。如果参数是一个对象，并且内核只修改了它的一些成员，会发生什么呢？是必须将整个对象存储在本地，还是只为修改后的成员创建副本？

浏览 0提问于2013-04-18得票数 2

回答已采纳

1回答

在CUDA* C++中分配变量-无法分配设备变量*

、、、

函数load_BMP和save_BMP都是完全功能的。我需要知道如何将bufferRGB复制到d_bufferRGB中，因为显然我做了一些错误。你能帮帮我吗？源代码在这里，>>>#include <stdlib.h>#include <cuda_runtime.h>#include "device_launch_p

浏览 1提问于2017-05-09得票数 0

回答已采纳

1回答

使用pycuda (lerp)的线性插值

、、、

CUDA CG函数为：我的最终目标是从一组加权的随机点用pycuda实现双线性插值。我从来没有编写过C语言或者CUDA程序，并且我一直在学习。

浏览 1提问于2012-01-06得票数 1

回答已采纳

2回答

对于CUDA中纹理引用的不灵活使用，是否有解决方法

、

我有一些纹理，我想在一些内核启动时读取。文档中说，这些必须在全球范围内定义。问题是我想用不同的纹理源调用相同的内核函数(这是相当复杂的)。} { gpu_kernel_2<<<grid, block>>>();有没有可能有一种方法来传递给内核目前，我有一个可怕的解决方案:复制每个内核的所有代码，唯一的变化是tex2

浏览 0提问于2012-03-15得票数 4

回答已采纳

点击加载更多