腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA
并行
化
嵌套
的
for
循环
c++
、
c
、
parallel-processing
、
cuda
、
gpu
我是
CUDA
的
新手。我正在尝试
并行
化
以下代码。现在它位于内核上,但根本没有使用线程,因此速度很慢。我试着使用这个,但到目前为止都没有用。代码是正确
的
,并且在串行版本中运行良好,但我需要加快速度,可能需要使用共享内存。//
CUDA
kernel code{ //int i = blockIdx.x绝对错误
的
浏览 3
提问于2012-11-04
得票数 6
回答已采纳
1
回答
使用
CUDA
并行
化
四个或更多
嵌套
循环
c++
、
loops
、
parallel-processing
、
cuda
我正在开发一个生成
并行
C++代码
的
编译器。我是
CUDA
编程
的
新手,但我正在尝试用
CUDA
并行
化
C++代码。0; k < c; k++) { }}__global__int _cu_z = ((blockIdx.z*blockDim.z)+threadIdx.z); A[_cu_x*y*z + _c
浏览 3
提问于2016-06-09
得票数 2
1
回答
CUDA
中for
循环
(一维朴素卷积)
的
并行
化
c
、
cuda
、
parallel-processing
、
convolution
有人能帮我把
嵌套
的
for
循环
转换成
CUDA
内核吗?下面是我试图转换为
CUDA
内核
的
函数:void conv(int* A, int* B, int* out) { for (int j = 0; j < N; ++j)} 我已经非常努力地将这段代码
浏览 1
提问于2014-12-02
得票数 3
回答已采纳
2
回答
CUDA
动态
并行
的
替代方案
parallel-processing
、
cuda
、
expectation-maximization
我想,我对
CUDA
编程模型和一般编程都是非常陌生
的
。我正在尝试
并行
化
一个期望最大化算法。我正在开发一台具有2.0计算能力
的
gtx 480。起初,我认为设备没有理由启动自己
的
线程,但当然,我大错特错了。不幸
的
是,动态
并行
只适用于最新和最好
的
GPU,计算能力为3.5。不深入太多细节,动态
并行
的
替代方案是什么?CPU EM算法中
的
循环
具有许多依赖关系,并且高度
嵌
浏览 6
提问于2013-07-11
得票数 0
1
回答
PyCuda -如何在内核中使用用Python语言编写
的
函数?
python
、
parallel-processing
、
multiprocessing
、
kernel
、
pycuda
我想要
并行
化
我
的
Python代码,并且我正在尝试使用PyCuda。到目前为止,我所看到
的
是,您必须在Python代码中使用C语言编写一个“内核”。这个内核就是将要
并行
化
的
东西。我说
的
对吗?示例(将随机数数组加倍,来自):import pycuda.autoinita =
浏览 1
提问于2018-11-29
得票数 0
1
回答
嵌套
并行
和折叠
循环
之间有区别吗?
parallel-processing
、
openmp
我知道,启用
嵌套
并行
将允许
嵌套
的
omp
并行
for
循环
也被
并行
化
。但是,我在
嵌套
的
for
循环
中使用折叠(2)(用于for
的
内部)。 有什么不同吗?为什么或者为什么不?假设最好
的
情况:
循环
索引与其他条件相同时不依赖。
浏览 1
提问于2017-12-05
得票数 1
回答已采纳
1
回答
有没有办法在
CUDA
内核中独立地
并行
for
循环
?
cuda
我正在尝试在
CUDA
内核中
并行
化
for
循环
。例如,下面是一个简单
的
内核示例: __global__ void sample_kernel(int n, float *x, float *y) { for (int j = 0; j < 10; ++j) { }} 因为j
的
循环
是独立
的<
浏览 44
提问于2020-01-06
得票数 1
回答已采纳
1
回答
用OpenMP实现
嵌套
循环
的
并行
化
c++
、
parallel-processing
、
nested
、
openmp
我试图用OpenMP在我
的
代码中
并行
化
以下
循环
pot2body=0.0; pot2body+=pottemp;对于函数'calculatePot',这个函数内部
的
一个非常重要
的
循环
也被sch
浏览 3
提问于2013-04-09
得票数 1
回答已采纳
2
回答
使用OpenMP
并行
化
嵌套
循环
c
、
openmp
我尝试使用OpenMP
并行
化
嵌套
循环
,但我不确定这是否是正确
的
方法。下面是代码中包含
嵌套
循环
的
部分。这只是一个泛型代码。我给出了50k
的
even记录,即使在
并行
化
之后也需要很多时间。有人能提出更好
的
想法来
并行
化
代码吗?我只是在下面的代码中对外部
循环
进行
并行
化
。
浏览 1
提问于2018-11-07
得票数 1
2
回答
OpenMP如何处理
嵌套
循环
?
c++
、
loops
、
parallel-processing
、
openmp
下面的代码是只
并行
第一个(外部)
循环
,还是
并行
整个
嵌套
循环
?;i++) for (int j=0;j<M;j++) //do task(i,j)// } 我只想确定上面的代码是否会
并行
化
整个
嵌套
的
for -
循环
(因此,一个线程直接相关
的
任务( i,j)),或者它只
并行
浏览 8
提问于2012-11-13
得票数 53
回答已采纳
1
回答
更新指令OpenACC
c++
、
parallel-processing
、
directive
、
openacc
、
pgi
当我在顶部
循环
中有一个内核时,为什么我不能使用这两个指令: delete[] nh_means; } 但是当我有许多独立
的
内核在每个
嵌套
循环
上工作时
浏览 13
提问于2017-01-16
得票数 2
1
回答
交叉验证
循环
的
pytorch
并行
化
pytorch
、
gpu
我有一个安装了tensorflow和pytorch
的
cuda
9-docker,我正在对一个图像数据集进行交叉验证。目前,我正在使用for
循环
来进行交叉验证。,下面的代码可以
并行
化
for
循环
吗?但这不是数据
并行
化
。cpu,还是同时
并行
化
cpu和gpu?这可能比在这样
的
模型中
并行
更容易,因为在我
的
情况下,不需要跨每个进程进行通信?
浏览 0
提问于2019-05-01
得票数 0
2
回答
OpenAcc标准中内核和
并行
指令
的
区别
c++
、
gpu
、
openacc
、
pgi
我在“OpenAcc入门指南”中读到: 定义应该编译以便在加速器设备上
并行
执行
的
程序区域。定义程序
的
区域,该区域应该被编译成一系列内核,以便在加速器设备上执行。我不明白“加速器设备上
的
并行
执行”和“编译成一系列用于在加速器设备上执行
的
内核”之间
的
区别。如果加速器设备是GPU,那么所有的代码都编译成某种大小
的
CUDA
内核(我
的
意思是
CUDA
网格和块),这些<em
浏览 1
提问于2019-12-17
得票数 1
回答已采纳
3
回答
带计数器
的
循环
的
CUDA
索引
c++
、
cuda
、
gpu
、
gpgpu
我有一个
嵌套
的
循环
,中间有一个计数器。我已经设法将
CUDA
索引用于外部
循环
,但我想不出任何方法可以在这种
循环
中利用更多
的
并行
性。你有类似的工作经验吗?. counter++; }我看到
的
问题是如何处理计数器,因为k也可以用threadIdx.y + blockIdx.y * bloc
浏览 1
提问于2012-10-01
得票数 0
回答已采纳
1
回答
可以使用
CUDA
并行
化
这个
嵌套
的
for
循环
吗?
c++
、
parallel-processing
、
cuda
、
gpu
我想加快这个
嵌套
的
for
循环
,刚开始学习
CUDA
,我如何使用
CUDA
来
并行
这个c++代码?{ } }} 我希望将最内部
的
for
循环
和排序部分(可能是整个
嵌套
循环
)
并行
起来。在对这些数组进行排序之后,我找到了所有数组
的
最大值。我使用最大
浏览 1
提问于2016-12-28
得票数 1
回答已采纳
1
回答
CUDA
如何获得网格,块,线程大小和
并行
非方阵计算
c++
、
visual-studio-2008
、
gpu
、
cuda
我是
CUDA
新手,需要帮助理解一些事情。我需要帮助
并行
化
这两个for
循环
。特别是如何设置dimBlock和dimGrid以使其运行得更快。我知道这看起来像sdk中
的
向量相加示例,但该示例仅适用于方阵,当我尝试为我
的
128x1024矩阵修改该代码时,它不能正常工作。{ }} 这段代码是一个更大
的
循环</em
浏览 0
提问于2011-04-13
得票数 22
回答已采纳
2
回答
CUDA
- Jacobian松弛
cuda
、
gpu
我正在将这个顺序计算映射到
CUDA
计算。该计算是在NxN网格上
的
二维雅可比松弛,其中N是未知
的
。N可被32整除。1; j<N+1; j++) { }} 我将外部
的
两个
循环
并行
化
目标是将其
并行
化
,以便在x和y维度上使用
循环
分布。有人可以帮助我实现一个在
CU
浏览 3
提问于2011-12-12
得票数 2
回答已采纳
1
回答
如何利用PPL
并行
化
while
循环
visual-c++
、
parallel-processing
、
ppl
我需要通过PPL来
并行
化
"while“
循环
。我在微软VS2013
的
可视
化
C++中有以下代码。return wordsInFilesTotally;这段代码通过外部
循环
中
的
std::vector进行
并行
迭代。
并行
性由concurrency::parallel_for()算法提供。但这段代码还
嵌套
了"while“
循环
,用于从文件中读取数据。我需要
并行
化
浏览 4
提问于2014-12-16
得票数 0
1
回答
如何OpenMP不能折叠
的
并行
嵌套
for
循环
c
、
parallel-processing
、
openmp
、
pragma
我正在学习OpenMP,在学习更多关于
循环
并行
的
知识时,我了解到在OpenMP - 中禁用了“
嵌套
并行
#pragma omp parallel for #pragma omp parallel for }根据这篇文章, 这不能作为两个
并行
循环
工作关于
嵌套
for
浏览 6
提问于2021-10-10
得票数 0
1
回答
OpenGL +
CUDA
:将数据从glReadPixels()传输到
CUDA
c++
、
opengl
、
cuda
、
glreadpixels
我想
并行
化
在每个像素上运行
的
循环
,并通过
CUDA
检查它
的
颜色。问题是,我需要将数据从GPU传递到CPU,然后再传递到GPU。有没有一种方法可以把数据从glReadPixles()传递到
CUDA
,而不需要经过CPU? 纹理记忆能帮到我吗?
浏览 7
提问于2013-11-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python编码风格、控制流程与循环嵌套的实战分享
通过for循环嵌套语法绘制一个漂亮的蜂形图案
KVM on KVM 嵌套虚拟化的实现
OpenCL环境下的并行化编程
在 Centos7 的KVM上启用嵌套虚拟化
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券