为什么内核在不同的流中执行不是并行的？_流中的并行处理不是并行的吗？_为什么我的TPL数据流Actionblock不能并行执行？ - 腾讯云开发者社区

c++、cuda、gpu

我刚刚在CUDA中学习了流技术，并且我尝试过它。然而，不想要的结果返回，即流不平行。(在图形处理器特斯拉M6上，操作系统为Red Hat Enterprise Linux8) 我有一个大小为(5,2048)的数据矩阵，以及一个处理该矩阵的内核。我的计划是分解“nStreams=4”扇区中的数据，并使用4个流来并行内核执行。streams[jj]>>&g

浏览 28提问于2019-04-29得票数 1

回答已采纳

1回答

库达:我是否需要在多个GPU上并行执行不同的流？

parallel-processing、cuda、multi-gpu

我想并行地在多个GPU上运行内核。为此，我使用cudaSetDevice()在设备之间切换，然后在相应的设备中启动内核。现在，通常一个流中的所有调用都按顺序执行，如果要并行执行，则必须使用不同的流。在使用不同的设备时也是这样吗?或者

浏览 5提问于2016-02-14得票数 4

回答已采纳

1回答

是否有一种动态确定库达流数量的方法？

cuda

是否有一种方法可以在程序执行期间而不是在编译过程中确定cuda流的数量？就像使用“新”命令一样。(“流”指代码块，而不是线程)(回应最后的评论)说 someKernel<<<xx,

浏览 4提问于2014-09-24得票数 1

回答已采纳

1回答

并发内核执行是否需要使用固定内存

memory、concurrency、cuda、locked

CUDA可以利用几种不同形式的任务并行性。我们可以在内核执行的同时来回复制内存。在这种情况下，我们必须使用cudaHostAlloc将主机内存分配为固定内存，流可以用于并行执行。但是，如果我只对使用streams并行运行几个内核感兴趣，我是必须使用固定内存，还是可以使用正常的非固定内存(即使用malloc)？谢谢,

浏览 7提问于2012-07-26得票数 1

1回答

Nvidia CUDA:分析器表示内存传输操作不是异步执行的

cuda

我分析了我的CUDA应用程序，分析结果并不像我所期望的那样。CPU循环在轮询每个流的状态时运行，如果发现流是空闲的，那么调用一个函数：launch_job。cudaMemcpyAsync(..., stream);对于分析器截图中看到的4个内核线程启动的第一个块，每次调用launch_job时，流都是不同

浏览 2提问于2021-06-09得票数 0

1回答

计时并发CUDA内核

cuda

不幸的是，基于fermi的GPU将跟踪任何在并行Nsight中串行化的内核计时，即使它们是不同流中的并发内核。干杯边缘

浏览 0提问于2011-02-02得票数 2

1回答

CUDA :调用内核/cudaMemcpy的主机方法会在内核/memcpy完成之前返回吗？

c++、cuda

我有一个方法，将一些数据复制到设备上，在各自的流中调用多个内核，然后为不同的流调用cudaMemcpyAsync，以便它们在各自的内核之后运行。既然我已经读到内核和cudaMemcpyAsync都是与主机代码并行启动和运行的，那么在这些代码完成之前，我调用它们的函数是作为回报，还是只在同一个函数中</e

浏览 1提问于2016-08-16得票数 3

回答已采纳

1回答

CUDA流并发和D2H数据传输重叠

cuda

我曾尝试将内核执行与memcpyasync D2H重叠，但不起作用。我有N组元素。每组有64个元素，可以并行处理。而由于数据依赖性，组的处理必须是顺序的。也就是说，必须在处理组i-1的元素之后处理组i的元素。处理一个组中的每个元素都会产生一个输出，该输出必须从GPU传输到CPU。为了覆盖这个D2H数据传输，我将一个组的元素划分为多个块，以便可以使用流重叠给定块上的内核</e

浏览 0提问于2017-04-15得票数 0

1回答

cuFFT流的并发性

c++、concurrency、cuda、cufft

每个流都对128x128大小的128幅图像运行2D批处理FFT的内核。我设置了3个流运行3个独立的FFT批处理计划。然后我被证实内核不是以<

浏览 3提问于2016-04-15得票数 2

回答已采纳

1回答

NVIDIA视觉分析器能显示并发内核执行吗？

cuda、nvvp

我在许多论坛上读到NVIDIA视觉探查器串行化程序，以收集时间信息。但是，在可视分析器的上下文选项卡中，提供了诸如“GPU上的内存副本和内核之间没有时间重叠”之类的建议，或者如果与内存和内核执行有重叠，则显示重叠时间。另外，如果您查看，您可以看到重叠内核的输出跟踪。我想知道分析器是否能够显示有关并发内核执行的信息(例如，如果我们使用3种不

浏览 1提问于2012-08-07得票数 2

1回答

如何确定CUDA流阻塞的原因

cuda、gpu

我分析了一下，发现这似乎是因为新机器上的cuda流被阻塞了。我的算法有3个主要任务，可以拆分并并行运行:内存重组(可以在CPU上完成)，内存从主机复制到设备，以及在设备上执行内核。在旧机器上，拆分流允许3个任务像这样重叠(所有来自NVidia可视分析器的屏幕截图)：然而，在新机器上，streams在开始CPU计算之前阻塞，直到前一个内核执行</em

浏览 0提问于2013-06-06得票数 7

1回答

当使用Powershell作业、运行空间或工作流时，线程是否在不同的核心上执行？

powershell、parallel-processing

当使用Powershell作业、运行空间或工作流时，线程是否在不同的核心上执行？(如果是这样的话，我们如何告诉powershell使用多少个核心？--抱歉，这是两个问题。).Net有任务并行库，它允许使用所有可用内核()并行运行“for循环”。Powershell乔布斯、运行空间或工作流是否会做类似的事情？类似地，我的意思是线程实际上是运行在不同的核心上，平行的吗

浏览 1提问于2018-11-16得票数 3

回答已采纳

1回答

关于多线程、并发性和并行性

multithreading、concurrency、parallel-processing

1.并发性和并行性是分类的不同层次。它既不是并行的，也不是并行的。它要么是并发的，要么是并行的，或者不是并行的。线程的定义澄清了这一点。线程是“执行流的单位”。这个“执行流”可以由调度程序独立管理，调度程序通常是操作系统

浏览 4提问于2022-05-17得票数 1

回答已采纳

1回答

理解CUDA依赖检查

cuda

CUDA编程指南提供了以下语句：只有当所有先前内核的线程块从CUDA上下文中的任何流开始执行时，‣才能开始执行； ‣阻止所有后续内核从CUDA上下文中的任何流启动，直到正在检查的内核</

浏览 2提问于2013-02-26得票数 1

回答已采纳

1回答

嵌套核同步深度

c++、cuda、dynamic-parallelism

在有父内核和子内核的地方，让我们使用下面的代码。从上述父内核中，我们希望在不同流中启动threadIdx.x子内核，以最大限度地提高并行吞吐量。然后，我们等待那些以cudaDeviceSynchronize()为父内核的子内核需要查看对global内存所做的更改。现在假设我们还希望使用流启动n父内核</

浏览 1提问于2018-05-22得票数 0

回答已采纳

3回答

在flatMap的结果上使流并行

java、parallel-processing、java-stream

之后，Java也会对元素进行并行执行。，以及flatMap的设计选择是否只在调用之前并行化流，而不是在调用之后并行化。现在假设我有64个核心，那么我希望上面的代码在flatMap之后会看到许多不同的线程，但实际上，它只看到一个(在Andreas的例子中是3个)。顺便说一下，我确实使用了isParallel来观察到流</e

浏览 0提问于2020-09-23得票数 5

4回答

Java :为什么要区分顺序执行模式和并行执行模式？

java、parallel-processing、java-8、java-stream

来自顺序/并行流之间没有功能上的区别。假设这些假设是有效的(一点元假设都没有错)，在api中公开执行</em

浏览 8提问于2014-04-09得票数 21

回答已采纳

2回答

即使我们有多个内核来服务请求，单例对象是否会导致性能下降？

java、multithreading、singleton

多核允许并行处理多个请求。每个请求都想访问Singleton对象中的方法m() (非同步方法)。由于我们只有一个实例，并不是所有在不同内核上执行的线程都可以并发地访问方法m()。假设我们有两个线程T1和T2在不同的内核上并行执行。线程T1当前正在执行m()方法。在另一个核上执行</e

浏览 0提问于2015-12-16得票数 1

1回答

关于系统调用和内核模块(并行内核服务)的几个问题

system-calls、parallelism

关于系统调用和内核模块，我有几个问题。假设我们有一个内核模块，两个应用程序(A和B)通过ioctl (并行)调用内核模块的相同函数。他们会<

浏览 0提问于2015-02-23得票数 1

回答已采纳

1回答

内核启动和内核执行之间的时间

cuda、profiling、nsight

我正在尝试使用VS2010的Parallel Nsight 2.1版本来优化我的CUDA程序。正如您在下面的分析器结果图片中所看到的，内核运行在四个不同的流</e

浏览 3提问于2012-08-30得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云