CUDA内核 - 嵌套for循环 - 腾讯云开发者社区

你好，我正在尝试编写一个CUDA内核来执行以下代码。

浏览 0提问于2011-03-15得票数 8

回答已采纳

1回答

CUDA的嵌套循环

、、、

我想把我的c代码移植到CUDA。主要计算部分包含3个for嵌套循环： for (int j=0;j<Ncontains[i];j++){ ....... }如何将其转换为我的CUDA内核？有了两个for循环，我可以这样做： int n= blockIdy.y * blockDim.y + threadI

浏览 2提问于2011-06-26得票数 2

回答已采纳

1回答

在Cuda上处理大型算法的最佳方法

、

在我的CPU代码上，我在同一个循环上执行所有这些转换，但我想知道在cuda中应用它的最好方法。所以我设法摆脱了最外层的循环:循环1和循环2，并用一个cuda线程替换了每个cicle，但现在我不确定什么是更好的设计cuda_kernel{ DOcuda_kernel 1{ DO JUST FIRST OPERATION} cuda

浏览 3提问于2013-05-26得票数 1

1回答

CUDA中for循环(一维朴素卷积)的并行化

、、、

有人能帮我把嵌套的for循环转换成CUDA内核吗？下面是我试图转换为CUDA内核的函数：void conv(int* A, int* B, int* out) { for (int i = 0;

浏览 1提问于2014-12-02得票数 3

回答已采纳

1回答

CUDA:如何使用推力进行矩阵乘法？

、、

我是CUDA和推力的新手，我正在尝试实现一个矩阵乘法，我想只使用推力算法来实现这一点，因为我想避免手动调用内核。有没有一种方法可以有效地实现这一点？(至少不使用2个嵌套的for循环) 或者我必须辞职并调用CUDA内核？

浏览 12提问于2019-05-10得票数 1

回答已采纳

1回答

CUDA内核未启动，CMAKE Visual Studio 2015项目

我有一个相对简单的CUDA内核，我立即以以下方式在我的程序的主要方法中调用内核： for (int i = 0; i < 20; i++) {REQUIRED) CUDA_NVCC_FLAGS -arch=compute_30 -code=sm_30 -g -G) cuda_add_executable(Comparison kernel.cu

浏览 0提问于2017-03-27得票数 0

回答已采纳

1回答

在CUDA图中使用循环

、、、、

我有内核A、B和C，需要顺序执行。它们在while循环中执行，直到满足某些条件为止。while(predicate) {} while循环可以执行3至2000次-关于循环应该停止的信息由内核C生成。由于执行与多个调用相对较小的内核有关，CUDA图听起来是个不错的主意。然而，我见过的CUDA图实现都是线性的或树状的，没有循环.通常，如果不可能使用循环，

浏览 3提问于2022-01-17得票数 1

回答已采纳

1回答

设备存储器阵列的寿命

、、、

我有一个用numba编写的cuda内核，它处理不适合GPU内存的大型数组。因此，我必须多次调用内核来处理整个数组。内核在循环中被调用，在循环中，在GPU完成计算之后，我将结果复制并聚合回主机数组。它们的价值是否保存在一个内核调用另一个内核中？我是否需要将设备数组定义放入循环(在调用内核之前)，还是在进入循环之前只做一次？我是否需要在代码中手动释放/删除设备数组，还是在程序结束时由<e

浏览 0提问于2019-01-25得票数 1

1回答

Cuda动态并行:可以创建的子线程的深度

我的问题是:允许父-子树在Cuda中生长的“深度”：这些是否仅受所述硬件的计算能力的限制，例如，如果我们不超过可以同时在硬件上运行的最大线程数，或者是否存在进一步的约束，那么可以生成尽可能多的父/子线程块

浏览 8提问于2020-10-31得票数 0

回答已采纳

1回答

CUDA程序设计中设备和主机执行时间的计算

、、

在我的代码中，我有两个gpu内核在运行，在主机for循环之间复制数据，下面的示例可以显示我的代码是什么样子的。cuda event start // copy host data to host array (CPU fun

浏览 4提问于2015-05-25得票数 0

3回答

CUDA中的嵌套内核

、

CUDA目前不允许嵌套内核。谁能建议如何使用streams来并行运行N个数据点，同时保留三个较小的内核。谢谢。

浏览 1提问于2010-12-12得票数 3

1回答

CUDA小内核2d卷积-如何实现？

、、、、

我已经用CUDA内核做了几天的实验，在500x500图像(但我也可以改变尺寸)和非常小的2D内核( laplacian 2D内核，所以它是3x3内核)之间执行快速的2d卷积。太小，无法充分利用所有的cuda线程)。不管你是否读了我写的所有

浏览 3提问于2012-04-13得票数 14

回答已采纳

2回答

OpenAcc标准中内核和并行指令的区别

、、、

核构造我不明白“加速器设备上的并行执行”和“编译成一系列用于在加速器设备上执行的内核”之间的区别。如果加速器设备是GPU，那么所有的代码都编译成某种大小的CUDA内核(我的意思是CUDA网格和块)，这些CUDA内核是在CUDA线程中在GPU上执行的，不是吗？内核的“序列”是什么？“并行”指令可以生成一个内核，而“内核”可

浏览 1提问于2019-12-17得票数 1

回答已采纳

1回答

在CUDA + Numba中遍历行

、、

我使用numba的cuda.jit来加速这一点。我的方法是有一个一维线程块，等于我的矩阵的宽度(w) (其中矩阵是灰度图像，即维数h xw的2D img )。因此，每个线程负责一列。@cuda.jit row, col = cuda.grid(2) xstride, _ = cuda.gridsize(2如何确保在上移动之前完成每一行，如果使用cuda是可能的话？

浏览 1提问于2020-12-17得票数 0

回答已采纳

2回答

使用CUDA优化嵌套for循环

、

我正在尝试加快检测速度，并使用CUDA来加速嵌套的for循环。我已经在Visual Basic中设置了CUDA集成。下面是我的.cpp文件中嵌套的for循环。cvIntegral(mWorker, mSecondOrderIIs[i][j]); } 我对CUDA比较陌生，所以我的问题是，有没有人能给我举个例子，告诉我如何使用CUDA让这个嵌套的for循环运行得更快？

浏览 1提问于2012-09-23得票数 0

2回答

所有这些都是在内核调用之前完成的。根据夜景上的Cuda Profiler的数据，对于500x500图像，最高的memcopy持续时间是246.016 us，所以这不会花费太长时间。但是像我下面复制的内核对于任何实际使用来说都太长了(根据下面的内核的Cuda分析器，对于500x500图像的内核是3.25秒，对于持续时间最长的内核是5.052秒)，所以我需要看看我是否可以优化它们。现在考虑到外部for循环 for(t=15;t<=tendbegin_

浏览 1提问于2013-07-03得票数 4

2回答

如果一次又一次地使用相同的输入运行同一个内核，那么是否完成了优化？

、

如果我使用相同的输入运行同一个内核几次，如下所示for(int i = 0; i < 2000; i++) { mykernel<<<1,120>>>(...);然而，我认为它只是运行了2000次内核，这是有点谨慎的，因为从非CUDA代码到非CUDA代码的速度是如此惊人(~900秒~0.9秒)。那么，在这种情况下，CUDA会做什么样的优化呢？缓存结果？设置CUDA_LAUNCH_BLOCKING=1并没有改

浏览 4提问于2011-05-11得票数 0

1回答