Intel Advisor:检查方法,包括所有子方法

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (1)
  • 关注 (0)
  • 查看 (54)

使用英特尔顾问和屋顶线模型,我想评估某个功能的性能。此函数使用特征库进行矩阵运算,其中主要工作已完成。

在输出中,我可以看到我的函数具有相对较小的自我时间和我的函数调用的几个特征函数。现在我想将我的函数的所有FLOPS和内存操作组合在一起(而不是每个单独的函数),并将此结果用于屋顶线模型。我怎样才能做到这一点?

注意:我在英特尔支持论坛[1]中发布​​了类似的问题。

[1] https://software.intel.com/en-us/forums/intel-advisor-xe/topic/806091

提问于
用户回答回答于

为了在Advisor Roofline图表上进行loopnest / functions聚合,您必须按照https://software.intel.com/en-us/articles/roofline-with-callstacks所述运行“使用CallStacks的Roofline”。

更具体地说,在命令行的情况下,您必须使用: advixe-cl -collect survey -project-dir MyResults -- MyExecutable advixe-cl -collect tripcounts -flop -stacks -project-dir MyResults -- MyExecutable (NB -stacks extra flag)。

完成后,您需要在图表上找到与您的功能相对应的点并“折叠”它。基本上,带有Callstacks的Roofline可以配置Roofline模型/图表的粒度/嵌套级别。使用“自上而下”视图与Roofline图表并排使用或在展开右侧“roofline call stacks”视图时,使用Callstacks在Roofline上浏览父子点更容易:

所属标签

可能回答问题的人

  • HKC

    红客学院 · 创始人 (已认证)

    26 粉丝7 提问5 回答
  • Dingda

    Dingda · 站长 (已认证)

    4 粉丝0 提问3 回答
  • 西风

    renzha.net · 站长 (已认证)

    9 粉丝1 提问3 回答
  • 螃蟹居

    1 粉丝0 提问2 回答

扫码关注云+社区

领取腾讯云代金券