我正在尝试使用CUDA确定我的PC带宽。我有一个750M的边界和我的理论带宽是90 GB,在规格中提到像80 GB。我尝试了nvidia网站https://devblogs.nvidia.com/parallelforall/how-implement-performance-metrics-cuda-cc/上的一个简单算法。我更改了单精度和双精度的代码,结果如下:
单精度(浮点):30/s
双精度:26/s
单精度带宽计算方法如下:
printf("Effective Bandwidth (GB/s): %fn", N*4*3/milliseconds/1e6);
如果我试图使它达到双精度(8字节):
printf("Effective Bandwidth (GB/s): %fn", N*8*3/milliseconds/1e6);
双精度的rezult比单精度大:
单精度(浮点):30 GB/s
双精度: 45 GB/s
发布于 2016-11-11 21:38:18
使用这种方法,您可以进行32位加载。您的卡的内存管理单元没有必要的资源(正在运行的请求-请参阅小法则和内存延迟this技术报告似乎涵盖了它),以使带宽以最高性能运行。
您希望使用128位负载(例如使用float4 )来最大化带宽,或者至少使用float2,并为每个线程执行几个操作。
https://stackoverflow.com/questions/40533846
复制相似问题