腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1957)
视频
沙龙
1
回答
如何将
这种
嵌套
的
for
循环
转
换为
CUDA
C++
进行
并行
编程
?
、
这就是我尝试过
的
。很难找到更好
的
索引...这个
嵌套
的
for
循环
有点难以解决。
浏览 37
提问于2019-06-24
得票数 0
回答已采纳
1
回答
使用
CUDA
并行
化四个或更多
嵌套
循环
、
、
、
我正在开发一个生成
并行
C++
代码
的
编译器。我是
CUDA
编程
的
新手,但我正在尝试用
CUDA
并行
化
C++
代码。目前,如果我有以下顺序
的
C++
代码: for(int j = 0; j < b; j++) { for(int k =int _cu_z = ((blockIdx.z*blockDim.z)+threa
浏览 3
提问于2016-06-09
得票数 2
3
回答
图形处理器中
的
并行
性-
CUDA
/ OpenCL
、
我对图形处理器上
的
CUDA
或OpenCL代码
的
并行
性有一个一般性
的
问题。我使用
的
是NVIDIA GTX 470。 我在
Cuda
编程
指南中简短地阅读了一下,但没有找到相关
的
答案,因此在这里提问。对于3个不同
的
数据集(图像数据R,G,B),这个顶级函数本身在主函数
的
“for
循环
”中被调用了3次,而实际
的
codelet也对图像/帧中
的
所有像素
浏览 1
提问于2011-12-22
得票数 4
回答已采纳
1
回答
将C/
C++
for
循环
转
换为
CUDA
、
我想了解
如何将
基本
的
C/
C++
循环
转
换为
CUDA
内核。对于一些人来说,这可能是非常基础
的
,但我真的很努力。假设Maxj大约是一百万,MAXj=1000000;这是我们想要所有线程工作
的
地方。我只用了内部
循环
就成功了:使用2d块,我如何
并行
化
这
浏览 0
提问于2011-07-07
得票数 2
回答已采纳
3
回答
带计数器
的
循环
的
CUDA
索引
、
、
、
我有一个
嵌套
的
循环
,中间有一个计数器。我已经设法将
CUDA
索引用于外部
循环
,但我想不出任何方法可以在
这种
循环
中利用更多
的
并行
性。你有类似的工作经验吗?. counter++; }我看到
的
问题是如何处理计数器,因为k也可以用threadIdx.y + blockIdx
浏览 1
提问于2012-10-01
得票数 0
回答已采纳
3
回答
如何判断我
的
C++
程序中
的
OpenMP是否正常工作
、
、
我正在使用OpenMP对我
的
嵌套
循环
进行
多线程处理。因为我刚接触这个东西,所以我不确定我是否以正确
的
方式使用了OpenMP,这样它才能真正地
进行
并行
编程
。所以我想知道我是否可以测量我
的
使用OpenMP
的
C++
程序
的
性能,这样我就可以知道它实际上是有效
的
,我是在正确
的
轨道上吗?比如有多少个线程在
并行
运行,每个线程需要多长时间才能完
浏览 2
提问于2009-08-19
得票数 6
回答已采纳
1
回答
嵌套
for
循环
的
CUDA
网格步长
循环
、
我正在使用
CUDA
网格跨度
循环
,效果看起来不错,但我不是100%理解为什么只需要对外部
循环
做这个跨步
的
事情,而内
循环
没有什么变化。
浏览 0
提问于2020-09-27
得票数 0
2
回答
如何将
伪代码转
换为
SQL语句?
我在网上上免费
的
斯坦福数据库课程。我没有任何数据库经验,但有多年
的
操作系统
编程
经验。通常,我会用流程图或写出特定算法
的
伪代码,然后再
进行
编码。我想知道是否可以使用
这种
技术将流程图或伪代码转
换为
SQL语句。
如何将
一个双重
嵌套
的
循环
映射到SQL?
浏览 2
提问于2011-10-27
得票数 2
回答已采纳
5
回答
关于
CUDA
C和
C++
的
解释
、
、
、
有人能给我一个很好
的
解释关于数据自动化系统C和
C++
的
性质吗?据我所知,
CUDA
应该是带有NVIDIA
的
GPU库
的
C。目前,
CUDA
C支持一些
C++
特性,但不支持其他特性。NVIDIA
的
计划是什么?他们是否打算在C
的
基础上添加自己
的
库(例如,推力与STL),以与
C++
的
库相媲美?他们最终会支持所有的
C++
吗?在
C++
文件中使用
浏览 11
提问于2012-03-23
得票数 30
回答已采纳
3
回答
CUDA
处理图像
、
、
、
谢谢你读我
的
帖子。 我在想,我能用
CUDA
来加速这个过程吗?它会比CPU处理更快吗?我是
CUDA
的
新手,但我正在考虑使用
C++
项目
进行
图像文件I/O (例如libtiff),然后使用
CUDA
进行
浏览 5
提问于2014-04-03
得票数 1
回答已采纳
1
回答
并行
处理
的
软件缩放
、
我有一个关于软件扩展
的
问题。是否有一种
编程
语言可以用软件扩展来编写
并行
处理算法,或者软件缩放是一种算法,可以用任何一种语言
编程
?
浏览 5
提问于2014-03-17
得票数 1
回答已采纳
1
回答
可以使用
CUDA
并行
化这个
嵌套
的
for
循环
吗?
、
、
、
我想加快这个
嵌套
的
for
循环
,刚开始学习
CUDA
,我如何使用
CUDA
来
并行
这个
c++
代码?{ } }} 我希望将最内部
的
for
循环
和排序部分(可能是整个
嵌套
循环
)
并行
起来。在对这些数组
进行
排序之后,我找到了所有数组<
浏览 1
提问于2016-12-28
得票数 1
回答已采纳
1
回答
使用
CUDA
进行
令人难堪
的
并行
计算,如何开始?
、
、
我需要加速我现在使用PyLab
进行
的
许多计算。我想过使用
CUDA
。整个计算单元(A)包括
进行
几个(数千)完全独立
的
较小计算(B)。它们中
的
每一个在初始阶段都需要
进行
40-41次独立
的
、甚至更小
的
计算(C)。所以
并行
编程
应该真的很有帮助。对于PyLab,整个过程(A)需要20分钟,(B)大约需要十分之一秒。作为这个领域
的
初学者,我
的
问题是我应该在什么级别
并行
浏览 0
提问于2012-09-03
得票数 0
回答已采纳
2
回答
函数范式中
嵌套
循环
的
迭代过程
、
、
、
、
我正在学习函数式
编程
(用Haskell语言),通过重写一些旧
的
C++
代码。我正在研究
的
一个例子是,Floyd图搜索,它运行在2D NxN邻接矩阵上,以找到所有对之间
的
最短路径。它使用三个
嵌套
的
for
循环
来扫描2D数组并迭代地得到一个解决方案。j] ) adjacencyMatrix[i][j] = sum; }}
这种<
浏览 1
提问于2017-04-03
得票数 2
回答已采纳
2
回答
CUDA
动态
并行
的
替代方案
、
、
我想,我对
CUDA
编程
模型和一般
编程
都是非常陌生
的
。我正在尝试
并行
化一个期望最大化算法。我正在开发一台具有2.0计算能力
的
gtx 480。起初,我认为设备没有理由启动自己
的
线程,但当然,我大错特错了。不幸
的
是,动态
并行
只适用于最新和最好
的
GPU,计算能力为3.5。不深入太多细节,动态
并行
的
替代方案是什么?CPU EM算法中
的
循环
具有许多依赖关系,
浏览 6
提问于2013-07-11
得票数 0
1
回答
GPU大型矩阵文件
的
读取和存储
、
、
、
、
目标:在内存中存储一个大型矩阵(Radon矩阵),并将其转换到GPU内存中
进行
大规模
并行
操作。我有可能在C或
C++
中这样做。我收到
的
文件解析如下: 0.70316,0.71267,0.72221,0.73177,0.74135,0.75094,0.76053,0.77011,0.77967,0.7892,0.79868,0.80811,0.81747fscanf(radonFile, "%f
浏览 0
提问于2018-03-04
得票数 2
回答已采纳
2
回答
openMP如何
并行
化这些
循环
?
、
、
假设我有以下
循环
: for(int i=0;i<100;++i) // some big code here for(int j=0;j<200;j++) // some small code here } 哪个
循环
是
并行
运行
的
哪一个是最适合
并行
运行
的</
浏览 1
提问于2015-05-07
得票数 0
3
回答
为什么GPU做矩阵乘法
的
速度比CPU快?
、
、
、
、
为什么GPU做矩阵乘法
的
速度比CPU快?是因为
并行
处理吗?但是我没有写任何
并行
处理
的
代码。它是自动完成
的
吗? 任何直觉/高级解释都将不胜感激!
浏览 0
提问于2018-07-15
得票数 10
回答已采纳
1
回答
CUDA
:是否可以将一个核心作为“主”来执行内存malloc,并运行其他
的
“逻辑代码”?
、
、
我正在将一个
C++
程序移植到
CUDA
,所有的计算都是关于矩阵/向量
的
。第一个移植函数是矩阵
的
FFT。在将矩阵
的
FFT移植到
CUDA
后,发现CPU和GPU之间
的
数据传输几乎一直在
进行
。我遇到
的
问题是:在CPU功能中,有一些“代码片段”(就像FFT)可以移植到
CUDA
,但是这些代码是if/else代码,中间内存是malloc。 我想减少数据传输CPU <->GPU。我
的
观
浏览 0
提问于2021-02-08
得票数 0
2
回答
使用Parallel.Foreach
的
最短邮件处理时间
、
、
、
假设我有一个普通foreach
循环
中当前正在处理
的
项目的列表。假设项目的数量明显大于核心
的
数量。根据经验,在我应该考虑将for
循环
重构为Parallel.ForEach之前,每一项应该花费多长时间?
浏览 0
提问于2011-09-30
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用Numba加速Python代码
英伟达是如何做 GPU 编程的(二)
如何在Julia编程中实现GPU加速
特斯拉嫌弃 Python,追捧 C++
Python,C+和Java代码互翻,Facebook开发首个自监督神经编译器
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券