在具有计算能力<= 7.2的设备上,我总是使用 nvprof --events shared_st_bank_conflict 但是当我用CUDA10在RTX2080ti上运行它时,它返回 Warningprofiling on device 0 since profiling is not supported on devices with compute capability greater than 7.2那么,我
cuda-memcheck在代码中检测到了执行以下操作的争用条件:shared int owner[nWarps];] is initialized to blockDim.x+1 */ owner[threadIdx.x/32] = threadIdx.x;因此,基本上,这段代码根据某些条件计算每个翘曲的所有者线程。
我有一个有两个GPU的用户,第一个是不能运行CUDA的AMD,第二个是一个具有cuda功能的NVIDIA GPU。我正在使用代码model.half().to("cuda:0")。我不确定调用是否成功地使用了GPU,也无法测试它,因为我周围没有超过一个GPU的备用计算机。在这种情况下," CUDA :0“是否意味着第一个可以运行CUDA的设备,所以即使