腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA
周期
执行时间
、
我刚刚开始学习
CUDA
,我在解释我的实验结果时遇到了麻烦。我想在一个将两个向量相加的简单程序中比较CPU和GPU。以下是我的GPU信息: (040) Multiprocessors, (064)
CUDA
Cores/MP: 2560
CUDA
Cor
浏览 61
提问于2021-05-17
得票数 5
1
回答
MATLAB
CUDA
内存副本的延迟?
、
、
、
、
我试图在MATLAB中测量
CUDA
内存副本的潜伏期。我编写了以下例程,其中标量重复复制到GPU和GPU。a=single(randn(1,1)); for j=1:50*1000 a2=gather(aGpu); toc;
执行时间
约为假设循环中有50,000个迭代,并且我的CPU工作在3.4/3.7 GHz,这意味着来回复制标量平均需要大约70,000个CPU
周期
。我在不同的地方读到,
CUDA
内存拷贝的延迟预计将低于1000个CPU<e
浏览 2
提问于2015-01-12
得票数 1
回答已采纳
3
回答
FPGA时序问题
我是FPGA编程的新手,我对总体
执行时间
方面的性能有一个问题。我想优化处理数据所需的时间,我将测量总体
执行时间
。如果我让它在两个
周期
内计算(result1 =b* c) & (a = result1 * d),那么总的
执行时间
将是2*
周期
时间的延迟(由乘法操作的延迟决定,比方说值X) = 2X 如果我在一个
周期
内进行计算总体
执行时间
将是1
浏览 3
提问于2011-04-03
得票数 2
回答已采纳
1
回答
CUDA
执行时间
与块大小的比较
、
目标很简单:使用
CUDA
绘制块大小对
执行时间
的影响。人们期望看到的是,对于每个块大小是32的倍数,
执行时间
是最低的,在这些倍数之后(例如33,65,97,129,...)
执行时间
应该会增加。
执行时间
只会下降,然后趋于平缓。 我在NVIDIA GeForce 940M上运行
CUDA
runtime 10.0。cudaEventCreate(&gpu_execution_s
浏览 42
提问于2019-03-26
得票数 1
1
回答
如何将DirectX奉献给GPU,将
CUDA
奉献给另一个GPU?
、
、
在我的应用程序中,GUI线程使用Direct2D来显示图像,允许用户进行平移和缩放,而另一个线程使用
CUDA
进行图像处理。) 但是,这并不像预期的那样工作,因为当用户处理图像时,从而导致连续显示的几次更新,
CUDA
的
执行时间
从典型的20 as跃升到大约800 a
浏览 0
提问于2012-08-20
得票数 0
2
回答
同一程序多次执行是否会产生不同的结果?
、
我已经使用System.nanoTime()函数测量了我的程序的
执行时间
。对于每次执行,它都会给出不同的
执行时间
。另外,我通过将时钟
周期
数乘以处理器速度来测量时钟
周期
数。并且由于
执行时间
的不同,时钟
周期
到来的个数也不同。我不知道这是正确的还是我做错了什么。请给出答案。
浏览 0
提问于2013-08-08
得票数 0
1
回答
CUDA
测量每个gpu内核的
执行时间
、
、
、
我对
cuda
编程真的很陌生(几周前才开始),我有一个任务是将大矩阵(比如960x960)相乘,并测量整体和每个gpu内核的
执行时间
。我查看了安装工具包时附带的
CUDA
示例(更准确地说,是0_Simple文件夹中的项目matrixMul )。我改变了样本来乘以大的矩阵。示例本身具有测量
执行时间
的实现,但我的问题是如何测量每个gpu内核的
执行时间
。我很困惑。 此外,不那么重要的是,为什么这个例子中的内核函数在for函数中被调用,最大迭代次数为300次。
浏览 0
提问于2012-12-14
得票数 1
回答已采纳
1
回答
理解tensorflow剖面分析结果
、
C)为什么它们的
执行时间
不同,即0.072ms和0.094ms。
浏览 2
提问于2017-04-12
得票数 11
回答已采纳
2
回答
关于
CUDA
延迟隐藏机制和共享内存的问题
、
我知道要使
CUDA
程序高效,我们需要启动足够的线程来隐藏昂贵操作的延迟,例如全局内存读取。例如,当一个线程需要从全局内存读取时,其他线程将被调度运行,以便读取操作与线程的执行重叠。因此,
CUDA
程序的总体
执行时间
就是每个线程
执行时间
的总和,不包括读取全局内存的时间。但是,如果我们可以将数据放到共享内存中,并让线程从共享内存中读取数据,通常我们可以使
CUDA
程序运行得更快。
浏览 1
提问于2012-05-18
得票数 0
回答已采纳
1
回答
每条指令的时钟
周期
数
CUDA
我是
CUDA
的初学者。现在我正在计算每条指令的时钟
周期
数(例如加法)。在https://docs.nvidia.com/
cuda
/
cuda
-c-programming-guide/index.html#arithmetic-instructions中,它只给出不同算术运算的指令吞吐量那么,我可以将64/32=2作为每条指令的时钟
周期
数吗?如果不是,我怎么计算?
浏览 22
提问于2020-10-02
得票数 0
1
回答
CUDA
内核中不同部分的计时
、
、
我有一个调用一系列设备函数的
CUDA
内核。获取其中一个设备函数中一段代码的
执行时间
的最佳方法是什么?
浏览 2
提问于2012-06-26
得票数 10
回答已采纳
1
回答
GPU -多少标量通道
、
、
、
我有点搞不懂GPU有多少标量转子(我指的是"gpu simd宽度“x "gpu simd核心”),例如我自己的GPU "nvidia geforce gt 610")
浏览 4
提问于2014-07-18
得票数 0
回答已采纳
1
回答
在verilog中创建定期任务集
、
我想要创建一组
周期
任务集,具有不同的
周期
和
执行时间
,在verilog模块中,该任务将创建这样将操作某种操作,并将在一定时期后执行。同时也可以测量testbench...after仿真中的
执行时间
和执行
周期
。任何建议都是非常有用的。 问候
浏览 2
提问于2013-12-28
得票数 0
1
回答
程序的
执行时间
假设节目的CPI为1.5,时钟
周期
为500 is。
执行时间
是多少?我认为
执行时间
是程序执行一条指令所需的时间,比如延迟。
浏览 0
提问于2016-10-13
得票数 0
1
回答
gpu::matchTemplate与cvMatchTemplate
、
、
、
使用cvMatchTemplate,
执行时间
大约是10ms (因为我在120x160像素的搜索窗口中使用40x40的模式。图像是640x480,所以我没有考虑整个图像)。我已经使用gpu::MatchTemplate实现了相同的算法,我希望在
执行时间
方面有所改进。计算分数需要220ms。谢谢。编辑:我使用
CUDA
和我自己的内核编写了代码:它使用
cuda
函数对图像执行FFT,对于1024x1024的图像和200x200的模式,整个算法的
执行时间
不到2ms。
浏览 3
提问于2014-10-20
得票数 1
2
回答
多次调用
CUDA
内核是否会影响执行速度?
我还尝试了颠倒运行测试的顺序,这对相对或绝对
执行时间
没有影响。= sizeof(int); cudaMalloc(&d_sum, bytes); } } * Host function that prepares data array and passes it to the
CUDA
=
浏览 2
提问于2014-04-16
得票数 1
1
回答
多
周期
MIPS总是比单
周期
快吗?
、
、
、
当我计算一些指令的
执行时间
时,多
周期
设计时间比单
周期
设计时间要长。这有可能吗?
浏览 0
提问于2014-12-14
得票数 3
1
回答
如何度量cudaMalloc
执行时间
、
、
如何使用
cuda
事件来度量cudaMalloc的
执行时间
?我可以使用事件来测量内核时间和cudaMemcpy时间,但它不适用于cudaMalloc。使用下面的代码,我得到
执行时间
3.104e-06秒(这是错误的)。使用Nvidia Nsight Compute,我有0.109秒的时间。
浏览 19
提问于2019-11-12
得票数 0
回答已采纳
1
回答
嵌入式系统中混合调度模型的测试
、
、
我正在为学校做一个项目,在这个项目中,我必须分析一些固定优先级服务器算法(轮询服务器、可推迟服务器、优先级交换)在混合调度情况下使用模拟器的性能,在这种情况下,我们有硬
周期
任务和软非
周期
任务。在我的模型中,我认为:软任务具有已知的wcet和随机的到达时间。实际
执行时间
可能小于wcet。有时,我使用w
浏览 0
提问于2013-11-08
得票数 5
回答已采纳
4
回答
处理器指令
周期
执行时间
、
、
、
、
我的猜测是,__no_operation()内禀(ARM)指令应该执行1/(168 MHz),前提是每个NOP在一个时钟
周期
内执行,我想通过文档来验证这一点。是否有关于处理器指令
周期
执行时间
的标准位置?我试图确定一个STM32f407IGh6处理器需要多长时间才能执行运行在168个MHz上的NOP指令。有些处理器每个指令
周期
需要多个振荡,有些处理器在比较时钟
周期
和指令
周期
时需要1比1.“指令
周期
”一词甚至不存在于STMicro提供的整个数据表中,也没有出现在它
浏览 2
提问于2013-08-13
得票数 6
回答已采纳
点击加载更多
相关
资讯
php脚本执行时间配置
python查看程序执行时间
Python 优化—算出每条语句执行时间
还在手写CUDA?上交KernelPilot用AI帮你写又快又好的CUDA!
CUDA的开发技术难点
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券