首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >单精度的CUDA带宽和双精度的带宽

单精度的CUDA带宽和双精度的带宽
EN

Stack Overflow用户
提问于 2016-11-11 01:39:58
回答 1查看 38关注 0票数 0

我正在尝试使用CUDA确定我的PC带宽。我有一个750M的边界和我的理论带宽是90 GB,在规格中提到像80 GB。我尝试了nvidia网站https://devblogs.nvidia.com/parallelforall/how-implement-performance-metrics-cuda-cc/上的一个简单算法。我更改了单精度和双精度的代码,结果如下:

单精度(浮点):30/s

双精度:26/s

单精度带宽计算方法如下:

代码语言:javascript
运行
复制
 printf("Effective Bandwidth (GB/s): %fn", N*4*3/milliseconds/1e6);

如果我试图使它达到双精度(8字节):

代码语言:javascript
运行
复制
printf("Effective Bandwidth (GB/s): %fn", N*8*3/milliseconds/1e6);

双精度的rezult比单精度大:

单精度(浮点):30 GB/s

双精度: 45 GB/s

EN

回答 1

Stack Overflow用户

发布于 2016-11-11 21:38:18

使用这种方法,您可以进行32位加载。您的卡的内存管理单元没有必要的资源(正在运行的请求-请参阅小法则和内存延迟this技术报告似乎涵盖了它),以使带宽以最高性能运行。

您希望使用128位负载(例如使用float4 )来最大化带宽,或者至少使用float2,并为每个线程执行几个操作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40533846

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档