腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
cudaEventElapsedTime
和
nvprof
运行时
<< 1, 1>>>( d_A, 1 ); cudaEventRecord(stop,0);
cudaEventElapsedTime
当我在终端中运行代码时,我看到当我使用
nvprof
--metrics SOME_METRICS -o e.nvvp .那么,为什么时钟事件说内核
运行时
是15us,而nvvp说是2.95us呢? 它们是两个不同的
浏览 30
提问于2019-11-01
得票数 2
2
回答
是否有数据自动化系统程序的代码剖析?
、
、
在OpenCL世界中,函数返回所有事件的分析信息,如排队、提交、开始
和
结束时间(以纳秒为单位)。这是相当方便的,因为我可以printf的信息,无论何时我想。是否可以在代码中获取此类信息,而不是使用外部分析工具(如
和
)?
浏览 2
提问于2016-10-30
得票数 0
回答已采纳
1
回答
矩阵加法时出现CUDA事件错误
在GF 820 M上执行:对于WIDTH=20480
和
Number of threads=1024;time=0,021920) ; cudaEventSynchronize(stop);
cudaEventElapsedTime
浏览 0
提问于2016-03-04
得票数 0
2
回答
cuFFT分析问题
、
、
我正在尝试获取cuFFT库调用的分析数据,例如plan
和
exec。我使用的是
nvprof
(命令行分析工具),选项为"--print-api-trace“。
浏览 1
提问于2013-04-15
得票数 0
回答已采纳
1
回答
我如何知道
nvprof
在CUDA项目中的存在?
、
我有一个小的数据自动化系统的程序,我想介绍一下与
nvprof
。问题是我想用这样一种方式来编写程序 当我运行
nvprof
my_prog时,它将调用cudaProfilerStart
和
cudaProfilerStop。因此,问题是如何使我的代码在
运行时
意识到
nvprof
的存在,而不需要额外的命令行参数。
浏览 11
提问于2017-10-29
得票数 1
回答已采纳
1
回答
我的CUDA
nvprof
'API跟踪‘
和
'GPU跟踪’是不同步的-怎么办?
、
、
、
、
我正在使用CUDA7.0分析器
nvprof
来分析一些进行CUDA调用的过程:稍后,我生成两个跟踪:'API跟踪‘(发生在主机CPU上的情况,例如您标记的CUDA
运行时
调用
和
范围)
和
'GPU跟踪’(内核执行、内存集、H2Ds、D2Hs等等): $
nvprof
-i out.
nvprof
--print-api-tr
浏览 1
提问于2015-04-09
得票数 0
回答已采纳
1
回答
nvprof
正在崩溃,因为它将一个非常大的文件写入/tmp/并耗尽磁盘空间。
、
如何解决在可用空间相对较小的磁盘上
运行时
发生的
nvprof
崩溃?具体来说,在分析我的cuda内核时,我使用以下两个命令:
nvprof
-f -o ~/myproj/profiling/timeline-`date --o ~/myproj/profiling/analysis-metrics-`date -I`.out ~/myproj/build/myexe 第一个
nvprof
命令
浏览 0
提问于2019-05-31
得票数 1
回答已采纳
1
回答
nvprof
在分析python脚本时使用所有可用的GPU
、
、
、
为了找到可以提高代码性能的地方,我尝试使用
nvprof
。 我已经设置了我的代码,我只想使用远程机器上的两个GPU中的一个,尽管在调用
nvprof
--profile-child-processes .为了只使用一个GPU进行分析,我可以给
nvprof
提供任何论据吗?
浏览 3
提问于2017-04-06
得票数 0
回答已采纳
1
回答
具有并发选择的读取事件计数器
、
、
在同时执行两个内核时,我尝试使用
nvprof
读取性能计数器。内核同时
运行时
,是否可以读取性能计数器?我不需要每个内核的性能,聚合数据是非常好的。 我是运行在开普勒gpu与计算3.5。
浏览 2
提问于2015-05-16
得票数 1
回答已采纳
1
回答
如何通过
nvprof
对CUDA应用程序进行分析
、
我只想使用命令工具
nvprof
编写一个脚本来分析我的cuda应用程序。目前,我主要研究两个指标: GPU利用率
和
GPU flops32 (FP32)。GPU flops32是指GPU在活动时每秒执行的FP32
浏览 2
提问于2018-05-07
得票数 0
1
回答
nvprof
和
pgprof有什么区别吗?
、
、
我有兴趣知道pgprof ==
nvprof
+nvvp。例如,我想知道它们是否可以互换。
nvprof
或nvvp是否会将PGI OpenACC应用程序配置为与pgprof完全相同?我有点困惑,因为这两个工具(
和
)的文档看起来完全一样。另外,做一次比较并没有显示出任何明显的区别:$ pgprof --help > help.pgi1c1Note: Only one instance of pgprof&
浏览 17
提问于2018-02-14
得票数 1
回答已采纳
4
回答
多GPU剖析(几个CPU,MPI/CUDA混合)
、
、
、
、
然后,我计划用nvcc逐个输入
和
分析这些文件,并手工比较这些数据。谢谢!
浏览 1
提问于2012-08-20
得票数 5
回答已采纳
2
回答
分析任意CUDA应用程序
、
、
、
当然,我知道nvvp
和
nvprof
的存在,但出于各种原因,
nvprof
不想使用涉及大量共享库的应用程序。nvidia-smi可以连接到驱动程序中,以找出正在运行的是什么,但我无法找到一种让
nvprof
附加到正在运行的进程的好方法。有一个标志--profile-all-processes,它确实给了我一个消息"
NVPROF
是剖析过程12345",但没有进一步打印出来。我正在使用CUDA 8。
浏览 2
提问于2018-05-18
得票数 4
1
回答
CUDA中的触发器效率
、
因此,
nvprof
应该知道,为了计算比率
和
分母,对于在特定设备上运行的所有应用程序来说,分母应该是常数吗?根据手册,那是No_CUDA_cores * Graphic_clock_freq * 2。这就是
nvprof
设定分母的方式吗?对此有什么评论吗?
浏览 0
提问于2019-04-11
得票数 1
回答已采纳
2
回答
CUDA:
cudaEventElapsedTime
返回设备未就绪错误
我尝试在Tesla (T10处理器)上测量
运行时
间,但
cudaEventElapsedTime
返回device not ready错误。但当我在费米(特斯拉M2090)上测试它时,它给了我结果。Error: %s\n\n", cudaGetErrorString(err)); } err =
cudaEventElapsedTime
浏览 0
提问于2011-07-02
得票数 8
回答已采纳
1
回答
测量nvidia gpu的使用
、
、
、
例如:我对工具
和
基于代码的解决方案都很开放。
浏览 4
提问于2020-07-18
得票数 1
1
回答
cuda分析器l1_global_load_hit
和
l1_global_load_miss返回零
、
我目前正在使用
nvprof
分析一个cuda内核(CUDA5.0)。我尝试检查未合并的内存负载:正在返回:
和
:返回 1 0 0
nvprof
--events gld_request mya
浏览 0
提问于2013-02-20
得票数 1
2
回答
如何通过
nvprof
在短时间内分析数据自动化系统的应用?
、
我想通过
nvprof
生成一个极限配置文件。如何将分析时间限制为5秒?
浏览 1
提问于2018-09-01
得票数 0
回答已采纳
1
回答
如何停止运行TensorRT服务器而不使用ctrl-c (用于使用
nvprof
进行分析)
、
、
、
、
我正在运行
nvprof
来分析TensorRT服务器-客户机模型的GPU使用情况。我正在做的事情是: 似乎用ctrl结束T
浏览 4
提问于2020-03-16
得票数 0
回答已采纳
1
回答
在内部使用CUPTI函数时,无法使用
nvprof
配置cuda代码
、
、
当我编译
和
运行代码时,一切都正常。Error: incompatible CUDA driver version
nvprof
和
其他基于CUPTI的代码分别工作得很好
浏览 3
提问于2017-04-30
得票数 0
回答已采纳
点击加载更多
相关
资讯
电表在制造和现场运行时,时间如何保证
Go 语言的垃圾回收演化历程:垃圾回收和运行时问题
Deno 1.0发布:为JavaScript和TypeScript提供安全运行时环境
通过优化S3读取来提高效率和减少运行时间
Node-RED 3发布,改进了节点编辑器、运行时特性和调试功能
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券