我正在分析一个内核(nsight 2021.2.1,计算能力8.3,cuda 11.4),并查看为源码行执行的指标Avg线程。据我所知,此值可以介于0和32之间。然而,在我的分析中,它要高得多。

显然,我对谓词指令度量以及平均线程执行方式的理解很差。我应该如何解释这个值,我可以从中得出任何结论吗?
发布于 2021-10-11 16:23:48
这是源代码视图中的错误。源视图列从装配件说明累计到来源行。这适用于执行的指令和谓词-执行的线程指令,但不适用于平均值。线程已执行。
正确的值为
Predicated-On Thread Instructions Executed / Instructions Executed = Avg Thread Executed
91,714,560,000 / 2,866,080,000 = 32如果你点击源码行并在SASS视图中查看相关的汇编代码,你可能会发现7条指令。
224 / 32 = 7.https://stackoverflow.com/questions/69522483
复制相似问题