在同时执行两个内核时,我尝试使用nvprof读取性能计数器。
nvprof --concurrent-kernels on --events fb_subp0_write_sectors ./myprogram但是,通过这样做,内核执行似乎是序列化的。我想要的是他们在并发运行时的表现。
内核同时运行时,是否可以读取性能计数器?我不需要每个内核的性能,聚合数据是非常好的。
我是运行在开普勒gpu与计算3.5。
发布于 2015-05-17 00:38:05
不是的。nvprof v7.5和更早版本不支持性能计数器的集合,这对于研究并发内核的性能非常有用。我建议您通过NVIDIA开发人员程序提交一个功能请求。这在团队的任务列表上。客户反馈有助于将功能移到列表上。
https://stackoverflow.com/questions/30279421
复制相似问题