腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA
并发
执行
问题
、
我想创建一个基本的
CUDA
应用程序,为学生演示内存传输/内核
执行
重叠。但是使用nvvp,似乎没有
并发
执行
。你能帮我出什么
问题
吗?完整源代码(Visual Studio 2015、
CUDA
8.0、sm3.5、arch3.5、Titan X卡):#include "device_launch_parameters.h
浏览 11
提问于2016-09-05
得票数 0
回答已采纳
1
回答
CUDA
并发
执行
、
、
我希望回答我的
问题
不会花太多时间,因为这是关于我对这个话题的理解。每个块的最大线程数: 1024 现在,主要的
问题
是:我有一个内核(它
执行
稀疏矩阵乘法,但它不是那么重要),我想同时启动它(!)看一下卡的特征,我们看到它有14个sm和3.5的能力,允许运行32个
并发
内核。因此,我在这里得出的结论是,启动28个
并发
内核( 14个SM中每个内核两个)将是最好的决定。第一个<e
浏览 1
提问于2014-10-02
得票数 0
2
回答
使用事件时
CUDA
并发
内核序列化
我在
CUDA
内核中遇到了一个需要
并发
执行
的序列化
问题
。我使用cudaEvents作为标记来跟踪内核
执行
情况。在我对具有多个流的
并发
内核的实验中,我们观察到,在它们各自的流上使用事件会导致
并发
内核被序列化。Tesla C2070,驱动程序版本4.10,运行时版本4.10,
CUDA
功能2.0Tesla M2090
浏览 0
提问于2012-05-07
得票数 4
2
回答
Cuda
并行
执行
有人能告诉我这一点吗:在
CUDA
中,块是并行/
并发
执行
的吗?换句话说,如果两个不同的数据块尝试写入相同的全局地址,即globalPtr12,是否存在丢失更新的
问题
?(我问这个
问题
是因为我读到
CUDA
中的并行
执行
单元是warp=32线程。)
浏览 2
提问于2012-08-03
得票数 0
3
回答
使用针对GPU的
CUDA
同时启动多个内核
、
、
是否可以同时启动两个
执行
独立任务的内核。例如,如果我有这个
Cuda
代码.......myMethod1 <<<...
CUDA
/OpenCL是否有此规定。
浏览 0
提问于2010-06-14
得票数 5
1
回答
cuda
内核不
并发
执行
我试图探索我的Nvidia Quadro 4000的
并发
内核
执行
属性,它具有2.0功能。两个流的内核完全相同,每个流的
执行
时间为190 ms。 dim3 Grid((width-SEARCH_RADIUS*2-1)/(dimBlock.x*4)+1, (height-SEARCH_RADIUS*4,
CUDA
_BLOCK_DIM*4,SE
浏览 4
提问于2013-01-02
得票数 1
1
回答
在
执行
CUDA
设备代码时,在同一线程中运行主机代码
、
、
在
CUDA
设备功能运行时,如何运行主机代码?由于
CUDA
运行时必须等待设备功能完成,我想知道是否有可能在此期间调用提供的主机函数委托。
浏览 3
提问于2015-03-02
得票数 4
回答已采纳
1
回答
计算能力为3.0的设备的最大
并发
内核数
、
计算能力为3.0的NVIDIA设备的最大
并发
内核数是多少?我希望它和Compute Capability 2.0的版本不一样。
浏览 0
提问于2012-07-26
得票数 1
回答已采纳
2
回答
streams如何在
CUDA
中提供
并发
执行
?
、
、
、
在
CUDA
文档中提到,如果我们像这样使用两个流( stream0和stream1 ):我们在stream0中复制数据,然后在stream0中启动第一个内核,然后我们在stream0中恢复设备中的数据,然后在stream1中进行相同的操作,这种方式,就像"
CUDA
by example 2010“一书中提到的那样,不提供
并发
执行
,但在”
并发
内核示例“中使用了这种方法,并提供了
并发
执行
。
浏览 5
提问于2013-09-27
得票数 0
1
回答
NVIDIA
CUDA
Toolkit 5.0 Visual Profiler“启用
并发
内核分析”应用程序要求
、
、
是因为我需要使用此工具包的NVIDIA的新功能,该新功能允许在时间线中查看异步
执行
的
并发
内核(这在
CUDA
Toolkit4.2中是不可能的)。出于这个原因,我(成功地)在我的pc上安装了这个工具包(5.0)构建了
CUDA
2.4.2的源代码(这是我在OpenCV博客上向我提出的建议),并且我能够使用
并发
内核正确地编译和
执行
我的应用程序:其中一些是由模块OpenCV_GPU的函数调用的,另一些是我直接用
CUDA
语言编写的内核。不幸的是,如果我启用“启用
并发</em
浏览 0
提问于2012-10-03
得票数 0
1
回答
GK110的超级Q比of 104/ of 104 nvidia卡
并发
内核有什么优势?
如果我有多线程应用程序和我自己的线程控制
CUDA
设备并将内核调度到不同的流中,我也可以在开普勒-2 (GK110)之前的设备上实现非常高的GPU使用率,例如费米和开普勒-1 (GK104)。
浏览 3
提问于2014-04-15
得票数 0
3
回答
cuda
内核调用是同步的还是异步的
、
然而,
cuda
c编程指南提到内核调用是异步的。CPU不等待第一个内核调用完成,因此,CPU还可以在第一个内核调用完成之前调用第二个内核。但是,如果这是真的,那么我们就不能使用内核启动来同步块。
浏览 3
提问于2011-12-12
得票数 29
回答已采纳
1
回答
是否有一种动态确定库达流数量的方法?
是否有一种方法可以在程序
执行
期间而不是在编译过程中确定
cuda
流的数量?就像使用“新”命令一样。(回应最后的评论)说如果没有串行代码,内核应该并行
执行
,
浏览 4
提问于2014-09-24
得票数 1
回答已采纳
1
回答
如何修复Nsight profiler中的“低内核
并发
”警告?
、
、
、
我试图在Nsight eclipse profiler中分析一个带有内核调用的
cuda
程序,但是我得到了这样的警告:‘低内核
并发
性,两个内核并行
执行
的时间百分比很低’。我检查了其他一些简单的
cuda
代码,结果都是一样的。我还检查了这个
问题
:,它说在分析时应用程序中的所有
并发
内核都是序列化的,如果这是正确的,那么为什么我会得到这个警告?
浏览 3
提问于2019-09-14
得票数 0
1
回答
CUSPARSE中的多数据流
我想使用streams
执行
此操作。我尝试过使用一个句柄创建多个流,但没有得到任何加速。 请帮我解决这个
问题
。
浏览 0
提问于2013-07-21
得票数 0
回答已采纳
1
回答
理解
CUDA
依赖检查
CUDA
编程指南提供了以下语句: 只有当所有先前内核的线程块从
CUDA
上下文中的任何流开始
执行
时,‣才能开始
执行
; ‣阻止所有后续内核从
CUDA
上下文中的任何流启动,直到正在检查的内核启动完成为止。我是否可以说,在某些设备内存上
执行
内核需要对所有以前的内核进行依赖检查,或者对涉及相同设备内存的内存进行传输?如果这是真(可能不是真),则根据
浏览 2
提问于2013-02-26
得票数 1
回答已采纳
1
回答
CUDA
流与
并发
内核
执行
、
、
我想使用流来并行
执行
在不同设备数据数组上工作的内核。数据在设备上分配,并从以前的内核中填充。 /* -------------------------------
浏览 2
提问于2013-06-19
得票数 3
1
回答
开普勒中的
并发
内核数
在Fermi中,我们可以启动16个
并发
内核。我们可以在开普勒中启动多少个内核?这个数字是相同的,还是他们也增加了这个数字?
浏览 3
提问于2013-03-06
得票数 2
回答已采纳
1
回答
线程块和多处理器网格
、
指出: MyKernel<<<1,N>>
浏览 3
提问于2013-05-14
得票数 1
1
回答
图灵体系结构中异步发动机计数的澄清
、
方案是,我知道在费米中引入并在以后的架构中进一步增强的
并发
复制和
执行
机制,即在
CUDA
C++最佳实践指南中: 当前的GPU可以同时处理异步数据传输和
执行
内核。具有单个副本引擎的GPU可以
执行
一个异步数据传输和
执行
内核,而具有两个副本引擎的GPU可以同时
执行
从主机到设备的一个异步数据传输、从设备到主机的一个异步数据传输以及
执行
内核。GPU上的复制引擎的数量由asyncEngineCount结构的cudaDeviceProp字段提供,该字段也列出在de
浏览 2
提问于2020-02-11
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券