腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Cuda
中
实现
最大
Reduce
、
我一直在学习
Cuda
,我仍然
在
掌握并行性。我现在遇到的问题是
在
一个值数组上
实现
一个
最大
的
reduce
。这是我的内核 float* d_max,+ s]); } *d_max = shared[tid];我
浏览 0
提问于2013-06-29
得票数 8
回答已采纳
1
回答
在
CUDA
中
实现
reduce
的问题
、
、
我正在尝试
在
cuda
中
实现
reduce
,在那里我找到了数组
中
的
最大
元素。我已经使用了这个内核来寻找最小值,它可以工作,但当我试图找到
最大
值时,它就不起作用了。我反复地检查了算法,但没有找到一个bug。
浏览 0
提问于2016-08-13
得票数 0
1
回答
推力减少不适用于不相等的输入/输出类型
、
给定一个浮点数组,我希望
在
一次遍历
中
减少它们的最小和
最大
值,但是使用推力的
reduce
方法,我得到了所有模板编译错误的母亲(或者至少是姑妈)。我的原始代码包含分布
在
2个float4数组
中
的5个值列表,我希望减少这些值,但我已经将其简化为这个简短的示例。我的问题是:有没有可能在一次推力
中
同时降低最小和
最大
?如果不是,那么
实现
上述减少的最有效方法是什么?转换迭代器会对我有帮助吗(如果是的话,那么缩减会是一次遍历的缩减吗?)一些额外的信息:
浏览 0
提问于2012-05-11
得票数 1
回答已采纳
2
回答
用C语言
CUDA
实现
Dijkstra算法
、
我正在尝试使用
cuda
实现
Dijsktra算法。我得到了一个使用map
reduce
执行相同操作的代码这是链接,但我想使用共享和全局memory..Please
实现
与链接
中
给出的类似内容告诉我如何继续,因为我是
cuda
..i新手不知道是否有必要以矩阵的形式
在
主机和设备上提供输入,以及我应该在内核函数
中
执行什么操作
浏览 1
提问于2014-01-04
得票数 3
1
回答
在
调用其他
CUDA
函数后使用thrust::
reduce
、
在
使用我自己的
CUDA
函数之后,我正在尝试调用一个
CUDA
::
reduce
函数。下面是问题: 如果我
在
我的
CUDA
函数之前使用just::
reduce
(只是为了测试),一切都很好,没有错误,没有抛出。但是,如果在运行我的
CUDA
函数后调用
CUDA
::
reduce
,则会弹出一条消息: cudaErrorLaunchOutOfResources(7): [.../dispatch_
reduce</em
浏览 63
提问于2020-04-13
得票数 0
1
回答
如何将Hadoop文件系统与OpenCL/GPU代码集成
、
、
、
、
找不到合适的教程来将HDFS与opencl/
cuda
代码相结合。我已经
在
opencl
中
为Map和
Reduce
编写了自己的代码。Map和
Reduce
函数都是GPU的内核函数。现在我想在多个节点上使用HDFS来
实现
我的代码。注意:我不想使用APARAPI/JavaCL。
浏览 2
提问于2013-03-23
得票数 0
1
回答
CUDA
块-全并行基元
、
是否有任何内置的
CUDA
内核函数相当于OpenCL 2.0 work_group_*函数?我专门找work_group_scan_exclusive_add和work_group_
reduce
_add。我对这些操作的天真
实现
不如OpenCL的内置函数执行得好,我希望使用__shfl的
实现
可以用
CUDA
来加快速度。
浏览 0
提问于2018-04-04
得票数 0
回答已采纳
2
回答
CUDA
在
共享内存
中
查找
最大
值
、
、
、
、
我有一个内核,它生成一个结果值数组,我希望高效地找到这些值的
最大
值。数组是在内核的开头用一些负值(例如-1)初始化的。例如,内核使用5个块执行,每个块有256个线程。
在
共享内存
中
,从块写入结果,但正如我所提到的,一些数组有50个结果,一些有256个结果.(共享数组如下所示) 8,6,4,9,1,-1,-1,-1.在这种情况下,如何有效地
在
一个块中找到
最大
值? 在这些类型的数组上,并行约简会很复杂,不是吗?怎么做?
浏览 2
提问于2012-04-19
得票数 0
回答已采纳
1
回答
如何将python函数"any()“转换为与
CUDA
python兼容的代码(运行在GPU上)?
、
、
、
我想知道如何在GPU (使用Numba )上
实现
numpy函数any()。函数接受一个数组,如果输入的至少一个元素的计算结果为True,则返回True。类似于:def AnyFunction(a):或def AnyFunction(
浏览 1
提问于2018-09-16
得票数 0
回答已采纳
1
回答
推力
CUDA
查找每个组(段)的
最大
值
、
、
、
、
我的数据如下key = [0, 1, 0, 2, 1, 2]max = [3, 5, 6]key = [0, 1, 2] 我怎样才能用
cuda
推力得到它呢?我可以做sort ->
reduce
_by_key,但是效率不是很高。
在
我的例子
中
,向量大小> 10M,密钥空间约为1K(从0开始,没有间隙)。
浏览 1
提问于2016-08-13
得票数 3
回答已采纳
1
回答
Tensorflow
CUDA
还原操作程序未完全减少
、
、
、
我已经
实现
了简单的交织约简算法,如描述的。然而,似乎并不是整个缓冲区都在减少。块减少的
实现
如下__global__
reduce
[tIdx] = (idx >= len) ?: " << resGPU <&l
浏览 0
提问于2018-03-01
得票数 1
回答已采纳
1
回答
cuda
并行还原#6工作,还原#7失败
、
、
中
是这样命名的: case 512:
CUDA
Device Query (Driver API) statically linked version
CUDA
Driver Version:
浏览 1
提问于2018-07-28
得票数 0
回答已采纳
1
回答
Numba
CUDA
还原成数组
、
、
、
这听起来像是完全适合GPU加速的问题类型,因此我想用Numba
CUDA
实现
它,但我很难找到如何处理这个问题的减少部分。下面是我想要
实现
的一个非常简单的例子import numpy as np def processArr(A, B): if i < A.size:def re
浏览 1
提问于2020-09-27
得票数 1
回答已采纳
1
回答
CUDA
阵列缩减优化
、
、
我想在
CUDA
中
执行这个函数。主要的问题是,由于x没有排序,所以我可以同时对同一内存进行多次修改。 我找到了以下解决方案,但我发现它非常慢。下面是代码(使用nvcc -std=c++11 example_
reduce
.cu -o example_
reduce
.out) #include "stdio.h" d_temp_a[((int)ix + 1) + Na * index] += 0.
浏览 34
提问于2021-09-24
得票数 0
回答已采纳
1
回答
推力比较算子
中
的加速__device__函数
、
、
、
return device_function(array2,x) <= device_function(array2,y);}; if ( array2[i] > value ){ quantity += array2[i]; }} 我的问题是:
在
设备上做什么(如果有的话)并行执行来减少device_function
中
的和?
浏览 4
提问于2015-02-09
得票数 0
回答已采纳
1
回答
cuda
推力
中
的fp16支撑
、
、
我无法
在
推力库达模板库中找到有关fp16支持的任何内容。就连路线图页面都没有://STL#include <thrust/
reduce
.h>
浏览 2
提问于2016-03-24
得票数 3
回答已采纳
1
回答
如果网格维度太大,
Cuda
不会修改输入。
、
考虑以下代码:#include<vector> #include <
cuda
_runtime_api.h> if(threadIdx.x == 0) { }dr, group_size)); gpuErrchk(cudaMemcpy
浏览 2
提问于2016-02-19
得票数 0
回答已采纳
1
回答
如何确定
CUDA
gpu的性能?
、
、
、
、
我正在编写一个
cuda
程序,用于匹配每个分辨率为180 X 180的输入图像,以及大约10,000个分辨率为128*128的模板图像。
在
时域内执行所有操作(不使用FFT)。原因是,我尝试了基-4 fft
实现
,但它需要大量的中间全局读写,最终需要更多的时间。 提高性能的可能方法?机器规格
浏览 3
提问于2014-01-11
得票数 1
回答已采纳
1
回答
如何在
CUDA
上
实现
深度递归
在
CUDA
(千层)上
实现
深度递归的最有效方法是什么?如果递归用于遍历类似树的数据结构,那么在哪里可以找到这方面的代码示例?我刚刚使用
Cuda
动态并行
实现
了K20 GPU上的递归,但发现由于参数cudaLimitDevRuntimeSyncDepth,有24个级别的限制。 我想要达到
最大
。大数据的速度和缩放。
浏览 2
提问于2013-01-14
得票数 4
1
回答
在
cpp文件中使用推力静态断言
、
、
、
我已经
在
cmake
中
应用了cpp文件所需的更改,但是message(STATUS "
CUDA
${
CUDA
_VERSION_STR
浏览 3
提问于2019-10-11
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Unity中实现手部跟踪
ekf在python中的实现
在TensorFlow中实现胶囊网络
在Python程序中设置函数最大递归深度
从头开始进行CUDA编程:线程间协作的常见技术
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券