CUDA周期执行时间

文章/答案/技术大牛

发布

1回答

、

我刚刚开始学习CUDA，我在解释我的实验结果时遇到了麻烦。我想在一个将两个向量相加的简单程序中比较CPU和GPU。以下是我的GPU信息： (040) Multiprocessors, (064) CUDA Cores/MP: 2560 CUDA Cor

浏览 61提问于2021-05-17得票数 5

1回答

我试图在MATLAB中测量CUDA内存副本的潜伏期。我编写了以下例程，其中标量重复复制到GPU和GPU。a=single(randn(1,1)); for j=1:50*1000 a2=gather(aGpu); toc; 执行时间约为假设循环中有50,000个迭代，并且我的CPU工作在3.4/3.7 GHz，这意味着来回复制标量平均需要大约70,000个CPU周期。我在不同的地方读到，CUDA内存拷贝的延迟预计将低于1000个CPU<e

浏览 2提问于2015-01-12得票数 1

回答已采纳

3回答

FPGA时序问题

我是FPGA编程的新手，我对总体执行时间方面的性能有一个问题。我想优化处理数据所需的时间，我将测量总体执行时间。如果我让它在两个周期内计算(result1 =b* c) & (a = result1 * d)，那么总的执行时间将是2*周期时间的延迟(由乘法操作的延迟决定，比方说值X) = 2X 如果我在一个周期内进行计算总体执行时间将是1

浏览 3提问于2011-04-03得票数 2

回答已采纳

1回答

CUDA执行时间与块大小的比较

、

目标很简单:使用CUDA绘制块大小对执行时间的影响。人们期望看到的是，对于每个块大小是32的倍数，执行时间是最低的，在这些倍数之后(例如33，65，97,129，...)执行时间应该会增加。执行时间只会下降，然后趋于平缓。我在NVIDIA GeForce 940M上运行CUDA runtime 10.0。cudaEventCreate(&gpu_execution_s

浏览 42提问于2019-03-26得票数 1

1回答

如何将DirectX奉献给GPU，将CUDA奉献给另一个GPU？

、、

在我的应用程序中，GUI线程使用Direct2D来显示图像，允许用户进行平移和缩放，而另一个线程使用CUDA进行图像处理。) 但是，这并不像预期的那样工作，因为当用户处理图像时，从而导致连续显示的几次更新，CUDA的执行时间从典型的20 as跃升到大约800 a

浏览 0提问于2012-08-20得票数 0

2回答

同一程序多次执行是否会产生不同的结果？

、

我已经使用System.nanoTime()函数测量了我的程序的执行时间。对于每次执行，它都会给出不同的执行时间。另外，我通过将时钟周期数乘以处理器速度来测量时钟周期数。并且由于执行时间的不同，时钟周期到来的个数也不同。我不知道这是正确的还是我做错了什么。请给出答案。

浏览 0提问于2013-08-08得票数 0

1回答

CUDA测量每个gpu内核的执行时间

、、、

我对cuda编程真的很陌生(几周前才开始)，我有一个任务是将大矩阵(比如960x960)相乘，并测量整体和每个gpu内核的执行时间。我查看了安装工具包时附带的CUDA示例(更准确地说，是0_Simple文件夹中的项目matrixMul )。我改变了样本来乘以大的矩阵。示例本身具有测量执行时间的实现，但我的问题是如何测量每个gpu内核的执行时间。我很困惑。此外，不那么重要的是，为什么这个例子中的内核函数在for函数中被调用，最大迭代次数为300次。

浏览 0提问于2012-12-14得票数 1

回答已采纳

1回答

理解tensorflow剖面分析结果

、

C)为什么它们的执行时间不同，即0.072ms和0.094ms。

浏览 2提问于2017-04-12得票数 11

回答已采纳

2回答

关于CUDA延迟隐藏机制和共享内存的问题

、

我知道要使CUDA程序高效，我们需要启动足够的线程来隐藏昂贵操作的延迟，例如全局内存读取。例如，当一个线程需要从全局内存读取时，其他线程将被调度运行，以便读取操作与线程的执行重叠。因此，CUDA程序的总体执行时间就是每个线程执行时间的总和，不包括读取全局内存的时间。但是，如果我们可以将数据放到共享内存中，并让线程从共享内存中读取数据，通常我们可以使CUDA程序运行得更快。

浏览 1提问于2012-05-18得票数 0

回答已采纳

1回答

每条指令的时钟周期数CUDA

我是CUDA的初学者。现在我正在计算每条指令的时钟周期数(例如加法)。在https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#arithmetic-instructions中，它只给出不同算术运算的指令吞吐量那么，我可以将64/32=2作为每条指令的时钟周期数吗？如果不是，我怎么计算？

浏览 22提问于2020-10-02得票数 0

1回答

CUDA内核中不同部分的计时

、、

我有一个调用一系列设备函数的CUDA内核。获取其中一个设备函数中一段代码的执行时间的最佳方法是什么？

浏览 2提问于2012-06-26得票数 10

回答已采纳

1回答

GPU -多少标量通道

、、、

我有点搞不懂GPU有多少标量转子(我指的是"gpu simd宽度“x "gpu simd核心”)，例如我自己的GPU "nvidia geforce gt 610")

浏览 4提问于2014-07-18得票数 0

回答已采纳

1回答

在verilog中创建定期任务集

、

我想要创建一组周期任务集，具有不同的周期和执行时间，在verilog模块中，该任务将创建这样将操作某种操作，并将在一定时期后执行。同时也可以测量testbench...after仿真中的执行时间和执行周期。任何建议都是非常有用的。问候

浏览 2提问于2013-12-28得票数 0

1回答

程序的执行时间

假设节目的CPI为1.5，时钟周期为500 is。执行时间是多少？我认为执行时间是程序执行一条指令所需的时间，比如延迟。

浏览 0提问于2016-10-13得票数 0

1回答

gpu::matchTemplate与cvMatchTemplate

、、、

使用cvMatchTemplate，执行时间大约是10ms (因为我在120x160像素的搜索窗口中使用40x40的模式。图像是640x480，所以我没有考虑整个图像)。我已经使用gpu::MatchTemplate实现了相同的算法，我希望在执行时间方面有所改进。计算分数需要220ms。谢谢。编辑:我使用CUDA和我自己的内核编写了代码:它使用cuda函数对图像执行FFT，对于1024x1024的图像和200x200的模式，整个算法的执行时间不到2ms。

浏览 3提问于2014-10-20得票数 1

2回答

多次调用CUDA内核是否会影响执行速度？

我还尝试了颠倒运行测试的顺序，这对相对或绝对执行时间没有影响。= sizeof(int); cudaMalloc(&d_sum, bytes); } } * Host function that prepares data array and passes it to the CUDA=

浏览 2提问于2014-04-16得票数 1

1回答

多周期MIPS总是比单周期快吗？

、、、

当我计算一些指令的执行时间时，多周期设计时间比单周期设计时间要长。这有可能吗？

浏览 0提问于2014-12-14得票数 3

1回答

如何度量cudaMalloc执行时间

、、

如何使用cuda事件来度量cudaMalloc的执行时间？我可以使用事件来测量内核时间和cudaMemcpy时间，但它不适用于cudaMalloc。使用下面的代码，我得到执行时间3.104e-06秒(这是错误的)。使用Nvidia Nsight Compute，我有0.109秒的时间。

浏览 19提问于2019-11-12得票数 0

回答已采纳

1回答

嵌入式系统中混合调度模型的测试

、、

我正在为学校做一个项目，在这个项目中，我必须分析一些固定优先级服务器算法(轮询服务器、可推迟服务器、优先级交换)在混合调度情况下使用模拟器的性能，在这种情况下，我们有硬周期任务和软非周期任务。在我的模型中，我认为：软任务具有已知的wcet和随机的到达时间。实际执行时间可能小于wcet。有时，我使用w

浏览 0提问于2013-11-08得票数 5

回答已采纳

4回答

处理器指令周期执行时间

、、、、

我的猜测是，__no_operation()内禀(ARM)指令应该执行1/(168 MHz)，前提是每个NOP在一个时钟周期内执行，我想通过文档来验证这一点。是否有关于处理器指令周期执行时间的标准位置？我试图确定一个STM32f407IGh6处理器需要多长时间才能执行运行在168个MHz上的NOP指令。有些处理器每个指令周期需要多个振荡，有些处理器在比较时钟周期和指令周期时需要1比1.“指令周期”一词甚至不存在于STMicro提供的整个数据表中，也没有出现在它

浏览 2提问于2013-08-13得票数 6

回答已采纳

点击加载更多