文章/答案/技术大牛

发布

社区首页 >问答首页 >CUDA中阵列行数的最小值

问CUDA中阵列行数的最小值
EN

Stack Overflow用户

提问于 2016-08-07 05:22:33

回答 1查看 1K关注 0票数 0

给定一个n乘m矩阵，我想在CUDA中构建一个包含每个矩阵行的最小值的n大小的向量。

到目前为止，我已经经历了这样的情况：

__global__ void OnMin(float * Mins, const float * Matrix, const int n, const int m) {
    int i = threadIdx.x + blockDim.x * blockIdx.x;
    if (i < n) {
        Mins[i] = Matrix[m * i];
        for (int j = 1; j < m; ++j){
            if (Matrix[m * i + j] < Mins[i])
                Mins[i] = Matrix[m * i + j];
        }
    }
}

调入：

OnMin<<<(n + TPB - 1) / TPB, TPB>>>(Mins, Matrix, n, m);

然而，我认为可以存在一些更优化的东西。

我尝试在循环中调用cublasIsamin，但速度较慢。

我还尝试从OnMin内核启动一个内核(全局)，但没有成功……(sm_35，compute_35引发编译错误...我有一个GTX670)

有什么想法吗？

谢谢!

c++

cuda

回答 1

Stack Overflow用户

发布于 2016-08-07 14:48:14

在行数较多的矩阵中寻找数组行的最小值是一个并行归约问题，在堆栈溢出问题上已经讨论了很多次。举个例子，这个。

Reduce matrix rows with CUDA

基本思想是在网格中使用n块。每个块包含固定数量的线程，通常为256个。每个线程块将对一行m元素进行并行缩减，以协作方式找到最小值。

对于可以充分利用GPU的足够大的矩阵，性能上限是复制矩阵一次的时间的一半。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38808832

复制

相似问题

问CUDA中阵列行数的最小值
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CUDA中阵列行数的最小值EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CUDA中阵列行数的最小值
EN