在Cuda中实现最大Reduce_在CUDA中查找最大值_在调用其他CUDA函数后使用thrust::reduce - 腾讯云开发者社区

、

我一直在学习Cuda，我仍然在掌握并行性。我现在遇到的问题是在一个值数组上实现一个最大的reduce。这是我的内核 float* d_max,+ s]); } *d_max = shared[tid];我

浏览 0提问于2013-06-29得票数 8

回答已采纳

1回答

在CUDA中实现reduce的问题

、、

我正在尝试在cuda中实现reduce，在那里我找到了数组中的最大元素。我已经使用了这个内核来寻找最小值，它可以工作，但当我试图找到最大值时，它就不起作用了。我反复地检查了算法，但没有找到一个bug。

浏览 0提问于2016-08-13得票数 0

1回答

给定一个浮点数组，我希望在一次遍历中减少它们的最小和最大值，但是使用推力的reduce方法，我得到了所有模板编译错误的母亲(或者至少是姑妈)。我的原始代码包含分布在2个float4数组中的5个值列表，我希望减少这些值，但我已经将其简化为这个简短的示例。我的问题是:有没有可能在一次推力中同时降低最小和最大？如果不是，那么实现上述减少的最有效方法是什么？转换迭代器会对我有帮助吗(如果是的话，那么缩减会是一次遍历的缩减吗？)一些额外的信息:

浏览 0提问于2012-05-11得票数 1

回答已采纳

2回答

用C语言CUDA实现Dijkstra算法

、

我正在尝试使用cuda实现Dijsktra算法。我得到了一个使用map reduce执行相同操作的代码这是链接，但我想使用共享和全局memory..Please实现与链接中给出的类似内容告诉我如何继续，因为我是cuda ..i新手不知道是否有必要以矩阵的形式在主机和设备上提供输入，以及我应该在内核函数中执行什么操作

浏览 1提问于2014-01-04得票数 3

1回答

在调用其他CUDA函数后使用thrust::reduce

、

在使用我自己的CUDA函数之后，我正在尝试调用一个CUDA：：reduce函数。下面是问题：如果我在我的CUDA函数之前使用just：：reduce(只是为了测试)，一切都很好，没有错误，没有抛出。但是，如果在运行我的CUDA函数后调用CUDA：：reduce，则会弹出一条消息： cudaErrorLaunchOutOfResources(7): [.../dispatch_reduce</em

浏览 63提问于2020-04-13得票数 0

1回答

如何将Hadoop文件系统与OpenCL/GPU代码集成

、、、、

找不到合适的教程来将HDFS与opencl/cuda代码相结合。我已经在opencl中为Map和Reduce编写了自己的代码。Map和Reduce函数都是GPU的内核函数。现在我想在多个节点上使用HDFS来实现我的代码。注意:我不想使用APARAPI/JavaCL。

浏览 2提问于2013-03-23得票数 0

1回答

CUDA块-全并行基元

、

是否有任何内置的CUDA内核函数相当于OpenCL 2.0 work_group_*函数？我专门找work_group_scan_exclusive_add和work_group_reduce_add。我对这些操作的天真实现不如OpenCL的内置函数执行得好，我希望使用__shfl的实现可以用CUDA来加快速度。

浏览 0提问于2018-04-04得票数 0

回答已采纳

2回答

CUDA在共享内存中查找最大值

、、、、

我有一个内核，它生成一个结果值数组，我希望高效地找到这些值的最大值。数组是在内核的开头用一些负值(例如-1)初始化的。例如，内核使用5个块执行，每个块有256个线程。在共享内存中，从块写入结果，但正如我所提到的，一些数组有50个结果，一些有256个结果.(共享数组如下所示) 8,6,4,9,1，-1，-1，-1.在这种情况下，如何有效地在一个块中找到最大值？在这些类型的数组上，并行约简会很复杂，不是吗？怎么做？

浏览 2提问于2012-04-19得票数 0

回答已采纳

1回答

如何将python函数"any()“转换为与CUDA* python兼容的代码(运行在GPU上)？*

、、、

我想知道如何在GPU (使用Numba )上实现numpy函数any()。函数接受一个数组，如果输入的至少一个元素的计算结果为True，则返回True。类似于：def AnyFunction(a):或def AnyFunction(

浏览 1提问于2018-09-16得票数 0

回答已采纳

1回答

推力CUDA查找每个组(段)的最大值

、、、、

我的数据如下key = [0, 1, 0, 2, 1, 2]max = [3, 5, 6]key = [0, 1, 2] 我怎样才能用cuda推力得到它呢？我可以做sort -> reduce_by_key，但是效率不是很高。在我的例子中，向量大小> 10M，密钥空间约为1K(从0开始，没有间隙)。

浏览 1提问于2016-08-13得票数 3

回答已采纳

1回答

Tensorflow CUDA还原操作程序未完全减少

、、、

我已经实现了简单的交织约简算法，如描述的。然而，似乎并不是整个缓冲区都在减少。块减少的实现如下__global__ reduce[tIdx] = (idx >= len) ?: " << resGPU <&l

浏览 0提问于2018-03-01得票数 1

回答已采纳

1回答

cuda并行还原#6工作，还原#7失败

、、

中是这样命名的： case 512:CUDA Device Query (Driver API) statically linked version CUDA Driver Version:

浏览 1提问于2018-07-28得票数 0

回答已采纳

1回答

Numba CUDA还原成数组

、、、

这听起来像是完全适合GPU加速的问题类型，因此我想用Numba CUDA实现它，但我很难找到如何处理这个问题的减少部分。下面是我想要实现的一个非常简单的例子import numpy as np def processArr(A, B): if i < A.size:def re

浏览 1提问于2020-09-27得票数 1

回答已采纳

1回答

CUDA阵列缩减优化

、、

我想在CUDA中执行这个函数。主要的问题是，由于x没有排序，所以我可以同时对同一内存进行多次修改。我找到了以下解决方案，但我发现它非常慢。下面是代码(使用nvcc -std=c++11 example_reduce.cu -o example_reduce.out) #include "stdio.h" d_temp_a[((int)ix + 1) + Na * index] += 0.

浏览 34提问于2021-09-24得票数 0

回答已采纳

1回答

推力比较算子中的加速device函数

、、、

return device_function(array2,x) <= device_function(array2,y);}; if ( array2[i] > value ){ quantity += array2[i]; }} 我的问题是:在设备上做什么(如果有的话)并行执行来减少device_function中的和？

浏览 4提问于2015-02-09得票数 0

回答已采纳

1回答

cuda推力中的fp16支撑

、、

我无法在推力库达模板库中找到有关fp16支持的任何内容。就连路线图页面都没有：//STL#include <thrust/reduce.h>

浏览 2提问于2016-03-24得票数 3

回答已采纳

1回答

如果网格维度太大，Cuda不会修改输入。

、

考虑以下代码：#include<vector> #include <cuda_runtime_api.h> if(threadIdx.x == 0) { }dr, group_size)); gpuErrchk(cudaMemcpy

浏览 2提问于2016-02-19得票数 0

回答已采纳

1回答

如何确定CUDA* gpu的性能？*

、、、、

我正在编写一个cuda程序，用于匹配每个分辨率为180 X 180的输入图像，以及大约10,000个分辨率为128*128的模板图像。在时域内执行所有操作(不使用FFT)。原因是，我尝试了基-4 fft实现，但它需要大量的中间全局读写，最终需要更多的时间。提高性能的可能方法？机器规格

浏览 3提问于2014-01-11得票数 1

回答已采纳

1回答

如何在CUDA上实现深度递归

在CUDA (千层)上实现深度递归的最有效方法是什么?如果递归用于遍历类似树的数据结构，那么在哪里可以找到这方面的代码示例？我刚刚使用Cuda动态并行实现了K20 GPU上的递归，但发现由于参数cudaLimitDevRuntimeSyncDepth，有24个级别的限制。我想要达到最大。大数据的速度和缩放。

浏览 2提问于2013-01-14得票数 4

1回答

在cpp文件中使用推力静态断言

、、、

我已经在cmake中应用了cpp文件所需的更改，但是message(STATUS "CUDA ${CUDA_VERSION_STR

浏览 3提问于2019-10-11得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云