给定一个n乘m矩阵,我想在CUDA中构建一个包含每个矩阵行的最小值的n大小的向量。
到目前为止,我已经经历了这样的情况:
__global__ void OnMin(float * Mins, const float * Matrix, const int n, const int m) {
int i = threadIdx.x + blockDim.x * blockIdx.x;
if (i < n) {
Mins[i] = Matrix[m * i];
for (int j = 1; j < m; ++j){
if (Matrix[m * i + j] < Mins[i])
Mins[i] = Matrix[m * i + j];
}
}
}调入:
OnMin<<<(n + TPB - 1) / TPB, TPB>>>(Mins, Matrix, n, m);然而,我认为可以存在一些更优化的东西。
我尝试在循环中调用cublasIsamin,但速度较慢。
我还尝试从OnMin内核启动一个内核(全局),但没有成功……(sm_35,compute_35引发编译错误...我有一个GTX670)
有什么想法吗?
谢谢!
发布于 2016-08-07 14:48:14
在行数较多的矩阵中寻找数组行的最小值是一个并行归约问题,在堆栈溢出问题上已经讨论了很多次。举个例子,这个。
基本思想是在网格中使用n块。每个块包含固定数量的线程,通常为256个。每个线程块将对一行m元素进行并行缩减,以协作方式找到最小值。
对于可以充分利用GPU的足够大的矩阵,性能上限是复制矩阵一次的时间的一半。
https://stackoverflow.com/questions/38808832
复制相似问题