我在tensorflow的GPU上运行一个典型的5层卷积网络。当我运行在一个快速的1080 TI GPU,我得到大约35%的GPU利用率。在一个较慢的M40上,我得到了80%的利用率,在970百万移动GPU上得到了97%的利用率。我已经实现了tf.StagingArea GPU队列,并使用警告消息确认,在每个训练步骤之前,StagingArea不是空的,它是异步的。
我已经运行了tensorflow分析器如下所示。值得注意的是,<em
我的内核利用率是100%,但是kernel time只有3%,而且还有no time overlap between memory copies and kernels。特别是高利用率和低内核时间对我来说没有任何意义。我已经确定,我只拥有合并和固定的内存访问权限,就像分析器推荐的那样。`Quadro FX 580 utilization = 100.00% (62117.00/62117.00)`
Kernel time = 3.05 % of total GPU time