我在寻找一种方法来摆脱主机线程在空闲代码中的忙碌等待(不要复制该代码,它只显示了我的问题的一个想法,它有许多基本的bug):
cudaStream_t steams[S_N];
for (int i = 0; i < S_N; i++) {
cudaStreamCreate(streams[i]);
}
int sid = 0;
for (int d = 0; d < DATA_SIZE; d+=DATA_STEP) {
while (true) {
if (cudaStreamQuery(streams[sid])) == cudaSucces