CUDA并行化嵌套的for循环_Python:并行化嵌套的for循环_如何并行化此嵌套循环 - 腾讯云开发者社区

c++、c、parallel-processing、cuda、gpu

我是CUDA的新手。我正在尝试并行化以下代码。现在它位于内核上，但根本没有使用线程，因此速度很慢。我试着使用这个，但到目前为止都没有用。代码是正确的，并且在串行版本中运行良好，但我需要加快速度，可能需要使用共享内存。//CUDA kernel code{ //int i = blockIdx.x绝对错误的

浏览 3提问于2012-11-04得票数 6

回答已采纳

1回答

使用CUDA并行化四个或更多嵌套循环

c++、loops、parallel-processing、cuda

我正在开发一个生成并行C++代码的编译器。我是CUDA编程的新手，但我正在尝试用CUDA并行化C++代码。0; k < c; k++) { }}__global__int _cu_z = ((blockIdx.z*blockDim.z)+threadIdx.z); A[_cu_x*y*z + _c

浏览 3提问于2016-06-09得票数 2

1回答

CUDA中for循环(一维朴素卷积)的并行化

c、cuda、parallel-processing、convolution

有人能帮我把嵌套的for循环转换成CUDA内核吗？下面是我试图转换为CUDA内核的函数：void conv(int* A, int* B, int* out) { for (int j = 0; j < N; ++j)} 我已经非常努力地将这段代码

浏览 1提问于2014-12-02得票数 3

回答已采纳

2回答

CUDA动态并行的替代方案

parallel-processing、cuda、expectation-maximization

我想，我对CUDA编程模型和一般编程都是非常陌生的。我正在尝试并行化一个期望最大化算法。我正在开发一台具有2.0计算能力的gtx 480。起初，我认为设备没有理由启动自己的线程，但当然，我大错特错了。不幸的是，动态并行只适用于最新和最好的GPU，计算能力为3.5。不深入太多细节，动态并行的替代方案是什么？CPU EM算法中的循环具有许多依赖关系，并且高度嵌

浏览 6提问于2013-07-11得票数 0

1回答

PyCuda -如何在内核中使用用Python语言编写的函数？

python、parallel-processing、multiprocessing、kernel、pycuda

我想要并行化我的Python代码，并且我正在尝试使用PyCuda。到目前为止，我所看到的是，您必须在Python代码中使用C语言编写一个“内核”。这个内核就是将要并行化的东西。我说的对吗？示例(将随机数数组加倍，来自)：import pycuda.autoinita =

浏览 1提问于2018-11-29得票数 0

1回答

嵌套并行和折叠循环之间有区别吗？

parallel-processing、openmp

我知道，启用嵌套并行将允许嵌套的omp并行for循环也被并行化。但是，我在嵌套的for循环中使用折叠(2)(用于for的内部)。有什么不同吗？为什么或者为什么不？假设最好的情况:循环索引与其他条件相同时不依赖。

浏览 1提问于2017-12-05得票数 1

回答已采纳

1回答

有没有办法在CUDA内核中独立地并行for循环？

cuda

我正在尝试在CUDA内核中并行化for循环。例如，下面是一个简单的内核示例： __global__ void sample_kernel(int n, float *x, float *y) { for (int j = 0; j < 10; ++j) { }} 因为j的循环是独立的<

浏览 44提问于2020-01-06得票数 1

回答已采纳

1回答

用OpenMP实现嵌套循环的并行化

c++、parallel-processing、nested、openmp

我试图用OpenMP在我的代码中并行化以下循环 pot2body=0.0; pot2body+=pottemp;对于函数'calculatePot'，这个函数内部的一个非常重要的循环也被sch

浏览 3提问于2013-04-09得票数 1

回答已采纳

2回答

使用OpenMP并行化嵌套循环

c、openmp

我尝试使用OpenMP并行化嵌套循环，但我不确定这是否是正确的方法。下面是代码中包含嵌套循环的部分。这只是一个泛型代码。我给出了50k的even记录，即使在并行化之后也需要很多时间。有人能提出更好的想法来并行化代码吗？我只是在下面的代码中对外部循环进行并行化。

浏览 1提问于2018-11-07得票数 1

2回答

OpenMP如何处理嵌套循环？

c++、loops、parallel-processing、openmp

下面的代码是只并行第一个(外部)循环，还是并行整个嵌套循环？;i++) for (int j=0;j<M;j++) //do task(i,j)// } 我只想确定上面的代码是否会并行化整个嵌套的for -循环(因此，一个线程直接相关的任务( i，j))，或者它只并行

浏览 8提问于2012-11-13得票数 53

回答已采纳

1回答

更新指令OpenACC

c++、parallel-processing、directive、openacc、pgi

当我在顶部循环中有一个内核时，为什么我不能使用这两个指令： delete[] nh_means; } 但是当我有许多独立的内核在每个嵌套循环上工作时

浏览 13提问于2017-01-16得票数 2

1回答

交叉验证循环的pytorch并行化

pytorch、gpu

我有一个安装了tensorflow和pytorch的cuda9-docker，我正在对一个图像数据集进行交叉验证。目前，我正在使用for循环来进行交叉验证。，下面的代码可以并行化for循环吗？但这不是数据并行化。cpu，还是同时并行化cpu和gpu？这可能比在这样的模型中并行更容易，因为在我的情况下，不需要跨每个进程进行通信？

浏览 0提问于2019-05-01得票数 0

2回答

OpenAcc标准中内核和并行指令的区别

c++、gpu、openacc、pgi

我在“OpenAcc入门指南”中读到：定义应该编译以便在加速器设备上并行执行的程序区域。定义程序的区域，该区域应该被编译成一系列内核，以便在加速器设备上执行。我不明白“加速器设备上的并行执行”和“编译成一系列用于在加速器设备上执行的内核”之间的区别。如果加速器设备是GPU，那么所有的代码都编译成某种大小的CUDA内核(我的意思是CUDA网格和块)，这些<em

浏览 1提问于2019-12-17得票数 1

回答已采纳

3回答

带计数器的循环的CUDA索引

c++、cuda、gpu、gpgpu

我有一个嵌套的循环，中间有一个计数器。我已经设法将CUDA索引用于外部循环，但我想不出任何方法可以在这种循环中利用更多的并行性。你有类似的工作经验吗？. counter++; }我看到的问题是如何处理计数器，因为k也可以用threadIdx.y + blockIdx.y * bloc

浏览 1提问于2012-10-01得票数 0

回答已采纳

1回答

可以使用CUDA并行化这个嵌套的for循环吗？

c++、parallel-processing、cuda、gpu

我想加快这个嵌套的for循环，刚开始学习CUDA，我如何使用CUDA来并行这个c++代码？{ } }} 我希望将最内部的for循环和排序部分(可能是整个嵌套循环)并行起来。在对这些数组进行排序之后，我找到了所有数组的最大值。我使用最大

浏览 1提问于2016-12-28得票数 1

回答已采纳

1回答

CUDA如何获得网格，块，线程大小和并行非方阵计算

c++、visual-studio-2008、gpu、cuda

我是CUDA新手，需要帮助理解一些事情。我需要帮助并行化这两个for循环。特别是如何设置dimBlock和dimGrid以使其运行得更快。我知道这看起来像sdk中的向量相加示例，但该示例仅适用于方阵，当我尝试为我的128x1024矩阵修改该代码时，它不能正常工作。{ }} 这段代码是一个更大的循环</em

浏览 0提问于2011-04-13得票数 22

回答已采纳

2回答

CUDA - Jacobian松弛

cuda、gpu

我正在将这个顺序计算映射到CUDA计算。该计算是在NxN网格上的二维雅可比松弛，其中N是未知的。N可被32整除。1; j<N+1; j++) { }} 我将外部的两个循环并行化目标是将其并行化，以便在x和y维度上使用循环分布。有人可以帮助我实现一个在CU

浏览 3提问于2011-12-12得票数 2

回答已采纳

1回答

如何利用PPL并行化while循环

visual-c++、parallel-processing、ppl

我需要通过PPL来并行化"while“循环。我在微软VS2013的可视化C++中有以下代码。return wordsInFilesTotally;这段代码通过外部循环中的std::vector进行并行迭代。并行性由concurrency::parallel_for()算法提供。但这段代码还嵌套了"while“循环，用于从文件中读取数据。我需要并行化

浏览 4提问于2014-12-16得票数 0

1回答

如何OpenMP不能折叠的并行嵌套for循环

c、parallel-processing、openmp、pragma

我正在学习OpenMP，在学习更多关于循环并行的知识时，我了解到在OpenMP - 中禁用了“嵌套并行#pragma omp parallel for #pragma omp parallel for }根据这篇文章，这不能作为两个并行循环工作关于嵌套for

浏览 6提问于2021-10-10得票数 0

1回答

OpenGL + CUDA:将数据从glReadPixels()传输到CUDA

c++、opengl、cuda、glreadpixels

我想并行化在每个像素上运行的循环，并通过CUDA检查它的颜色。问题是，我需要将数据从GPU传递到CPU，然后再传递到GPU。有没有一种方法可以把数据从glReadPixles()传递到CUDA，而不需要经过CPU？纹理记忆能帮到我吗？

浏览 7提问于2013-11-07得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云