问单精度的CUDA带宽和双精度的带宽
EN

Stack Overflow用户

提问于 2016-11-11 01:39:58

回答 1查看 38关注 0票数 0

我正在尝试使用CUDA确定我的PC带宽。我有一个750M的边界和我的理论带宽是90 GB，在规格中提到像80 GB。我尝试了nvidia网站https://devblogs.nvidia.com/parallelforall/how-implement-performance-metrics-cuda-cc/上的一个简单算法。我更改了单精度和双精度的代码，结果如下：

单精度(浮点)：30/s

双精度:26/s

单精度带宽计算方法如下：

 printf("Effective Bandwidth (GB/s): %fn", N*4*3/milliseconds/1e6);

如果我试图使它达到双精度(8字节)：

printf("Effective Bandwidth (GB/s): %fn", N*8*3/milliseconds/1e6);

双精度的rezult比单精度大：

单精度(浮点)：30 GB/s

双精度: 45 GB/s

发布于 2016-11-11 21:38:18

使用这种方法，您可以进行32位加载。您的卡的内存管理单元没有必要的资源(正在运行的请求-请参阅小法则和内存延迟this技术报告似乎涵盖了它)，以使带宽以最高性能运行。

您希望使用128位负载(例如使用float4 )来最大化带宽，或者至少使用float2，并为每个线程执行几个操作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40533846

复制

相似问题

问单精度的CUDA带宽和双精度的带宽EN