腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
为什么
内核
在
不同
的
流
中
执行
不是
并行
的
?
c++
、
cuda
、
gpu
我刚刚在CUDA中学习了
流
技术,并且我尝试过它。然而,不想要
的
结果返回,即
流
不平行。(
在
图形处理器特斯拉M6上,操作系统为Red Hat Enterprise Linux8) 我有一个大小为(5,2048)
的
数据矩阵,以及一个处理该矩阵
的
内核
。我
的
计划是分解“nStreams=4”扇区
中
的
数据,并使用4个流来
并行
内核
执行
。streams[jj]>>&g
浏览 28
提问于2019-04-29
得票数 1
回答已采纳
1
回答
库达:我是否需要在多个GPU上
并行
执行
不同
的
流
?
parallel-processing
、
cuda
、
multi-gpu
我想
并行
地
在
多个GPU上运行
内核
。为此,我使用cudaSetDevice()
在
设备之间切换,然后
在
相应
的
设备
中
启动
内核
。现在,通常一个
流
中
的
所有调用都按顺序
执行
,如果要
并行
执行
,则必须使用
不同
的
流
。
在
使用
不同
的
设备时也是这样吗?或者
浏览 5
提问于2016-02-14
得票数 4
回答已采纳
1
回答
是否有一种动态确定库达
流
数量
的
方法?
cuda
是否有一种方法可以
在
程序
执行
期间而
不是
在编译过程
中
确定cuda
流
的
数量?就像使用“新”命令一样。(“
流
”指代码块,而
不是
线程)(回应最后
的
评论)说 someKernel<<<xx,
浏览 4
提问于2014-09-24
得票数 1
回答已采纳
1
回答
并发
内核
执行
是否需要使用固定内存
memory
、
concurrency
、
cuda
、
locked
CUDA可以利用几种
不同
形式
的
任务
并行
性。我们可以在
内核
执行
的
同时来回复制内存。在这种情况下,我们必须使用cudaHostAlloc将主机内存分配为固定内存,
流
可以用于
并行
执行
。但是,如果我只对使用streams
并行
运行几个
内核
感兴趣,我是必须使用固定内存,还是可以使用正常
的
非固定内存(即使用malloc)? 谢谢,
浏览 7
提问于2012-07-26
得票数 1
1
回答
Nvidia CUDA:分析器表示内存传输操作
不是
异步
执行
的
cuda
我分析了我
的
CUDA应用程序,分析结果并不像我所期望
的
那样。CPU循环
在
轮询每个
流
的
状态时运行,如果发现
流
是空闲
的
,那么调用一个函数:launch_job。cudaMemcpyAsync(..., stream);对于分析器截图中看到
的
4个
内核
线程启动
的
第一个块,每次调用launch_job时,
流
都是
不同
浏览 2
提问于2021-06-09
得票数 0
1
回答
计时并发CUDA
内核
cuda
不幸
的
是,基于fermi
的
GPU将跟踪任何在
并行
Nsight
中
串行化
的
内核
计时,即使它们是
不同
流
中
的
并发
内核
。干杯边缘
浏览 0
提问于2011-02-02
得票数 2
1
回答
CUDA :调用
内核
/cudaMemcpy
的
主机方法会在
内核
/memcpy完成之前返回吗?
c++
、
cuda
我有一个方法,将一些数据复制到设备上,
在
各自
的
流
中
调用多个
内核
,然后为
不同
的
流
调用cudaMemcpyAsync,以便它们
在
各自
的
内核
之后运行。既然我已经读到
内核
和cudaMemcpyAsync都是与主机代码
并行
启动和运行
的
,那么在这些代码完成之前,我调用它们
的
函数是作为回报,还是只
在
同一个函数
中</e
浏览 1
提问于2016-08-16
得票数 3
回答已采纳
1
回答
CUDA
流
并发和D2H数据传输重叠
cuda
我曾尝试将
内核
执行
与memcpyasync D2H重叠,但不起作用。我有N组元素。每组有64个元素,可以
并行
处理。而由于数据依赖性,组
的
处理必须是顺序
的
。也就是说,必须在处理组i-1
的
元素之后处理组i
的
元素。处理一个组
中
的
每个元素都会产生一个输出,该输出必须从GPU传输到CPU。为了覆盖这个D2H数据传输,我将一个组
的
元素划分为多个块,以便可以使用
流
重叠给定块上
的
内核</e
浏览 0
提问于2017-04-15
得票数 0
1
回答
cuFFT
流
的
并发性
c++
、
concurrency
、
cuda
、
cufft
每个
流
都对128x128大小
的
128幅图像运行2D批处理FFT
的
内核
。我设置了3个
流
运行3个独立
的
FFT批处理计划。 然后我被证实
内核
不是
以<
浏览 3
提问于2016-04-15
得票数 2
回答已采纳
1
回答
NVIDIA视觉分析器能显示并发
内核
执行
吗?
cuda
、
nvvp
我
在
许多论坛上读到NVIDIA视觉探查器串行化程序,以收集时间信息。但是,
在
可视分析器
的
上下文选项卡
中
,提供了诸如“GPU上
的
内存副本和
内核
之间没有时间重叠”之类
的
建议,或者如果与内存和
内核
执行
有重叠,则显示重叠时间。另外,如果您查看,您可以看到重叠
内核
的
输出跟踪。我想知道分析器是否能够显示有关并发
内核
执行
的
信息(例如,如果我们使用3种
不
浏览 1
提问于2012-08-07
得票数 2
1
回答
如何确定CUDA
流
阻塞
的
原因
cuda
、
gpu
我分析了一下,发现这似乎是因为新机器上
的
cuda
流
被阻塞了。我
的
算法有3个主要任务,可以拆分并
并行
运行:内存重组(可以
在
CPU上完成),内存从主机复制到设备,以及
在
设备上
执行
内核
。
在
旧机器上,拆分流允许3个任务像这样重叠(所有来自NVidia可视分析器
的
屏幕截图): 然而,
在
新机器上,streams
在
开始CPU计算之前阻塞,直到前一个
内核
执行</em
浏览 0
提问于2013-06-06
得票数 7
1
回答
当使用Powershell作业、运行空间或工作
流
时,线程是否
在
不同
的
核心上
执行
?
powershell
、
parallel-processing
当使用Powershell作业、运行空间或工作
流
时,线程是否
在
不同
的
核心上
执行
?(如果是这样的话,我们如何告诉powershell使用多少个核心?--抱歉,这是两个问题。).Net有任务
并行
库,它允许使用所有可用
内核
()
并行
运行“for循环”。Powershell乔布斯、运行空间或工作
流
是否会做类似的事情?类似地,我
的
意思是线程实际上是运行在
不同
的
核心上,平行
的
吗
浏览 1
提问于2018-11-16
得票数 3
回答已采纳
1
回答
关于多线程、并发性和
并行
性
multithreading
、
concurrency
、
parallel-processing
1.并发性和
并行
性是分类
的
不同
层次。 它既
不是
并行
的
,也
不是
并行
的
。它要么是并发
的
,要么是
并行
的
,或者
不是
并行
的
。线程
的
定义澄清了这一点。线程是“
执行
流
的
单位”。这个“
执行
流
”可以由调度程序独立管理,调度程序通常是操作系统
浏览 4
提问于2022-05-17
得票数 1
回答已采纳
1
回答
理解CUDA依赖检查
cuda
CUDA编程指南提供了以下语句: 只有当所有先前
内核
的
线程块从CUDA上下文中
的
任何
流
开始
执行
时,‣才能开始
执行
; ‣阻止所有后续
内核
从CUDA上下文中
的
任何
流
启动,直到正在检查
的
内核</
浏览 2
提问于2013-02-26
得票数 1
回答已采纳
1
回答
嵌套核同步深度
c++
、
cuda
、
dynamic-parallelism
在有父
内核
和子
内核
的
地方,让我们使用下面的代码。从上述父
内核
中
,我们希望
在
不同
流
中
启动threadIdx.x子
内核
,以最大限度地提高
并行
吞吐量。然后,我们等待那些以cudaDeviceSynchronize()为父
内核
的
子
内核
需要查看对global内存所做
的
更改。现在假设我们还希望使用
流
启动n父
内核</
浏览 1
提问于2018-05-22
得票数 0
回答已采纳
3
回答
在
flatMap
的
结果上使
流
并行
java
、
parallel-processing
、
java-stream
之后,Java也会对元素进行
并行
执行
。,以及flatMap
的
设计选择是否只
在
调用之前
并行
化
流
,而
不是
在
调用之后
并行
化。现在假设我有64个核心,那么我希望上面的代码
在
flatMap之后会看到许多
不同
的
线程,但实际上,它只看到一个(
在
Andreas
的
例子
中
是3个)。顺便说一下,我确实使用了isParallel来观察到
流</e
浏览 0
提问于2020-09-23
得票数 5
4
回答
Java :
为什么
要区分顺序
执行
模式和
并行
执行
模式?
java
、
parallel-processing
、
java-8
、
java-stream
来自 顺序/
并行
流
之间没有功能上
的
区别。假设这些假设是有效
的
(一点元假设都没有错),
在
api
中
公开
执行</em
浏览 8
提问于2014-04-09
得票数 21
回答已采纳
2
回答
即使我们有多个
内核
来服务请求,单例对象是否会导致性能下降?
java
、
multithreading
、
singleton
多核允许
并行
处理多个请求。每个请求都想访问Singleton对象
中
的
方法m() (非同步方法)。 由于我们只有一个实例,并
不是
所有
在
不同
内核
上
执行
的
线程都可以并发地访问方法m()。假设我们有两个线程T1和T2
在
不同
的
内核
上
并行
执行
。线程T1当前正在
执行
m()方法。
在
另一个核上
执行</e
浏览 0
提问于2015-12-16
得票数 1
1
回答
关于系统调用和
内核
模块(
并行
内核
服务)
的
几个问题
system-calls
、
parallelism
关于系统调用和
内核
模块,我有几个问题。假设我们有一个
内核
模块,两个应用程序(A和B)通过ioctl (
并行
)调用
内核
模块
的
相同函数。他们会<
浏览 0
提问于2015-02-23
得票数 1
回答已采纳
1
回答
内核
启动和
内核
执行
之间
的
时间
cuda
、
profiling
、
nsight
我正在尝试使用VS2010
的
Parallel Nsight 2.1版本来优化我
的
CUDA程序。正如您在下面的分析器结果图片中所看到
的
,
内核
运行在四个
不同
的
流</e
浏览 3
提问于2012-08-30
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
信息流广告在不同行业中的典型应用:成功案例集锦
Java:Java 中的顺序流与并行流是什么?
仅用几行代码,让Python函数执行快30倍
并发编程
北大、微软提出NGra:高效大规模图神经网络计算
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券