我正在编写一个应用程序,它使用几个并发的CUDA流。当我的thrust::reduce_by_key调用似乎写入可分页内存时,我的其他流阻塞了。我认为返回值才是问题所在。can see in the profiler each operator writes 4 bytes to pageable memory
*new_end = thrust::reduce_by_key
使用推力,可以对交错数组(即由向量支持)的行进行直加,如示例所示。// convert a linear index to a column indexstruct linear_index_to_col_indexdevice_vector<int> col_indices(C);
// compute row sums by summing values wit