首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用`overlap`、`kernel time`和`uilzation`来优化内核

使用`overlap`、`kernel time`和`uilzation`来优化内核
EN

Stack Overflow用户
提问于 2011-10-21 00:56:56
回答 1查看 276关注 0票数 0

我的内核利用率是100%,但是kernel time只有3%,而且还有no time overlap between memory copies and kernels

特别是高利用率和低内核时间对我来说没有任何意义。

那么我应该如何继续优化我的内核呢?

我已经确定,我只拥有合并和固定的内存访问权限,就像分析器推荐的那样。

代码语言:javascript
代码运行次数:0
运行
复制
`Quadro FX 580 utilization = 100.00% (62117.00/62117.00)`

Kernel time = 3.05 % of total GPU time 
Memory copy time = 0.9 % of total GPU time
Kernel taking maximum time = Pinned (0.7% of total GPU time)
Memory copy taking maximum time = memcpyHtoD (0.5% of total GPU time)
There is no time overlap between memory copies and kernels on GPU

此外,我没有warp序列化,没有分支分支,也没有占用限制因素。

代码语言:javascript
代码运行次数:0
运行
复制
Kernel details: Grid size: [4 1 1], Block size: [256 1 1]
Register Ratio: 0.9375 ( 7680 / 8192 ) [10 registers per thread]
Shared Memory Ratio: 0.09375 ( 1536 / 16384 ) [60 bytes per Block]
Active Blocks per SM: 3 (Maximum Active Blocks per SM: 8)
Active threads per SM: 768 (Maximum Active threads per SM: 768)
Potential Occupancy: 1 ( 24 / 24 )
Achieved occupancy: 0.333333 (on 4 SMs)
Occupancy limiting factor: None

附注:我不是说我写了wundercode,但我只是不知道如何从这里开始。

EN

回答 1

Stack Overflow用户

发布于 2013-08-23 16:29:03

看起来你的内核的网格太小了,无法充分利用SM。为什么不减小块大小,增加网格大小。我认为这会有一些帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7839428

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档