CUDA并发执行问题

文章/答案/技术大牛

发布

1回答

concurrency、cuda

我想创建一个基本的CUDA应用程序，为学生演示内存传输/内核执行重叠。但是使用nvvp，似乎没有并发执行。你能帮我出什么问题吗？完整源代码(Visual Studio 2015、CUDA 8.0、sm3.5、arch3.5、Titan X卡)：#include "device_launch_parameters.h

浏览 11提问于2016-09-05得票数 0

回答已采纳

1回答

CUDA并发执行

c、cuda、multitasking

我希望回答我的问题不会花太多时间，因为这是关于我对这个话题的理解。每个块的最大线程数: 1024 现在，主要的问题是:我有一个内核(它执行稀疏矩阵乘法，但它不是那么重要)，我想同时启动它(！)看一下卡的特征，我们看到它有14个sm和3.5的能力，允许运行32个并发内核。因此，我在这里得出的结论是，启动28个并发内核( 14个SM中每个内核两个)将是最好的决定。第一个<e

浏览 1提问于2014-10-02得票数 0

2回答

使用事件时CUDA并发内核序列化

cuda

我在CUDA内核中遇到了一个需要并发执行的序列化问题。我使用cudaEvents作为标记来跟踪内核执行情况。在我对具有多个流的并发内核的实验中，我们观察到，在它们各自的流上使用事件会导致并发内核被序列化。Tesla C2070，驱动程序版本4.10，运行时版本4.10，CUDA功能2.0Tesla M2090

浏览 0提问于2012-05-07得票数 4

2回答

Cuda并行执行

cuda

有人能告诉我这一点吗:在CUDA中，块是并行/并发执行的吗？换句话说，如果两个不同的数据块尝试写入相同的全局地址，即globalPtr12，是否存在丢失更新的问题？(我问这个问题是因为我读到CUDA中的并行执行单元是warp=32线程。)

浏览 2提问于2012-08-03得票数 0

3回答

使用针对GPU的CUDA同时启动多个内核

concurrency、cuda、launch

是否可以同时启动两个执行独立任务的内核。例如，如果我有这个Cuda代码.......myMethod1 <<<...CUDA/OpenCL是否有此规定。

浏览 0提问于2010-06-14得票数 5

1回答

cuda内核不并发执行

cuda

我试图探索我的Nvidia Quadro 4000的并发内核执行属性，它具有2.0功能。两个流的内核完全相同，每个流的执行时间为190 ms。 dim3 Grid((width-SEARCH_RADIUS*2-1)/(dimBlock.x*4)+1, (height-SEARCH_RADIUS*4,CUDA_BLOCK_DIM*4,SE

浏览 4提问于2013-01-02得票数 1

1回答

在执行CUDA设备代码时，在同一线程中运行主机代码

c++、multithreading、cuda

在CUDA设备功能运行时，如何运行主机代码？由于CUDA运行时必须等待设备功能完成，我想知道是否有可能在此期间调用提供的主机函数委托。

浏览 3提问于2015-03-02得票数 4

回答已采纳

1回答

计算能力为3.0的设备的最大并发内核数

cuda、gpu

计算能力为3.0的NVIDIA设备的最大并发内核数是多少？我希望它和Compute Capability 2.0的版本不一样。

浏览 0提问于2012-07-26得票数 1

回答已采纳

2回答

streams如何在CUDA中提供并发执行？

concurrency、cuda、nvidia、cuda-streams

在CUDA文档中提到，如果我们像这样使用两个流( stream0和stream1 )：我们在stream0中复制数据，然后在stream0中启动第一个内核，然后我们在stream0中恢复设备中的数据，然后在stream1中进行相同的操作，这种方式，就像"CUDA by example 2010“一书中提到的那样，不提供并发执行，但在”并发内核示例“中使用了这种方法，并提供了并发执行。

浏览 5提问于2013-09-27得票数 0

1回答

NVIDIA CUDA Toolkit 5.0 Visual Profiler“启用并发内核分析”应用程序要求

opencv、cuda、nvidia

是因为我需要使用此工具包的NVIDIA的新功能，该新功能允许在时间线中查看异步执行的并发内核(这在CUDA Toolkit4.2中是不可能的)。出于这个原因，我(成功地)在我的pc上安装了这个工具包(5.0)构建了CUDA2.4.2的源代码(这是我在OpenCV博客上向我提出的建议)，并且我能够使用并发内核正确地编译和执行我的应用程序:其中一些是由模块OpenCV_GPU的函数调用的，另一些是我直接用CUDA语言编写的内核。不幸的是，如果我启用“启用并发</em

浏览 0提问于2012-10-03得票数 0

1回答

GK110的超级Q比of 104/ of 104 nvidia卡并发内核有什么优势？

cuda

如果我有多线程应用程序和我自己的线程控制CUDA设备并将内核调度到不同的流中，我也可以在开普勒-2 (GK110)之前的设备上实现非常高的GPU使用率，例如费米和开普勒-1 (GK104)。

浏览 3提问于2014-04-15得票数 0

3回答

cuda内核调用是同步的还是异步的

nvidia、cuda

然而，cuda c编程指南提到内核调用是异步的。CPU不等待第一个内核调用完成，因此，CPU还可以在第一个内核调用完成之前调用第二个内核。但是，如果这是真的，那么我们就不能使用内核启动来同步块。

浏览 3提问于2011-12-12得票数 29

回答已采纳

1回答

是否有一种动态确定库达流数量的方法？

cuda

是否有一种方法可以在程序执行期间而不是在编译过程中确定cuda流的数量？就像使用“新”命令一样。(回应最后的评论)说如果没有串行代码，内核应该并行执行，

浏览 4提问于2014-09-24得票数 1

回答已采纳

1回答

如何修复Nsight profiler中的“低内核并发”警告？

cuda、gpu、profiler、nsight

我试图在Nsight eclipse profiler中分析一个带有内核调用的cuda程序，但是我得到了这样的警告：‘低内核并发性，两个内核并行执行的时间百分比很低’。我检查了其他一些简单的cuda代码，结果都是一样的。我还检查了这个问题：，它说在分析时应用程序中的所有并发内核都是序列化的，如果这是正确的，那么为什么我会得到这个警告？

浏览 3提问于2019-09-14得票数 0

1回答

CUSPARSE中的多数据流

cuda

我想使用streams执行此操作。我尝试过使用一个句柄创建多个流，但没有得到任何加速。请帮我解决这个问题。

浏览 0提问于2013-07-21得票数 0

回答已采纳

1回答

理解CUDA依赖检查

cuda

CUDA编程指南提供了以下语句：只有当所有先前内核的线程块从CUDA上下文中的任何流开始执行时，‣才能开始执行； ‣阻止所有后续内核从CUDA上下文中的任何流启动，直到正在检查的内核启动完成为止。我是否可以说，在某些设备内存上执行内核需要对所有以前的内核进行依赖检查，或者对涉及相同设备内存的内存进行传输？如果这是真(可能不是真)，则根据

浏览 2提问于2013-02-26得票数 1

回答已采纳

1回答

CUDA流与并发内核执行

concurrency、cuda、cuda-streams

我想使用流来并行执行在不同设备数据数组上工作的内核。数据在设备上分配，并从以前的内核中填充。 /* -------------------------------

浏览 2提问于2013-06-19得票数 3

1回答

开普勒中的并发内核数

cuda

在Fermi中，我们可以启动16个并发内核。我们可以在开普勒中启动多少个内核？这个数字是相同的，还是他们也增加了这个数字？

浏览 3提问于2013-03-06得票数 2

回答已采纳

1回答

线程块和多处理器网格

cuda、multiprocessor

指出： MyKernel<<<1,N>>

浏览 3提问于2013-05-14得票数 1

1回答

图灵体系结构中异步发动机计数的澄清

cuda、gpu

方案是，我知道在费米中引入并在以后的架构中进一步增强的并发复制和执行机制，即在CUDA C++最佳实践指南中：当前的GPU可以同时处理异步数据传输和执行内核。具有单个副本引擎的GPU可以执行一个异步数据传输和执行内核，而具有两个副本引擎的GPU可以同时执行从主机到设备的一个异步数据传输、从设备到主机的一个异步数据传输以及执行内核。GPU上的复制引擎的数量由asyncEngineCount结构的cudaDeviceProp字段提供，该字段也列出在de

浏览 2提问于2020-02-11得票数 2

回答已采纳

点击加载更多

CUDA并发执行问题

CUDA并发执行

使用事件时CUDA并发内核序列化

Cuda并行执行

使用针对GPU的CUDA同时启动多个内核

cuda内核不并发执行

在执行CUDA设备代码时，在同一线程中运行主机代码

计算能力为3.0的设备的最大并发内核数

streams如何在CUDA中提供并发执行？

NVIDIA CUDA Toolkit 5.0 Visual Profiler“启用并发内核分析”应用程序要求

GK110的超级Q比of 104/ of 104 nvidia卡并发内核有什么优势？

cuda内核调用是同步的还是异步的

是否有一种动态确定库达流数量的方法？

如何修复Nsight profiler中的“低内核并发”警告？

CUSPARSE中的多数据流

理解CUDA依赖检查

CUDA流与并发内核执行

开普勒中的并发内核数

线程块和多处理器网格

图灵体系结构中异步发动机计数的澄清

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐