腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
CUDA
对
GPU
上
的
数组
求和
?
cuda
我正在尝试
使用
GPU
对
一个
数组
进行
求和
,代码如下: __global__ void sum_array(int* a, uint n) { a[i1] += a[i2]; __syncthreads();} 对于测试,我将我
的
数组
生成为当我将block设置为[1024, 1, 1],将g
浏览 63
提问于2019-12-27
得票数 0
1
回答
在
CUDA
/推力中执行矢量和
vector
、
cuda
、
thrust
、
gradient-descent
因此,我试图在
CUDA
中实现随机梯度下降,我
的
想法是将其并行化,类似于论文中描述
的
方式。 该实现是针对MapReduce分布式环境
的
,所以我不确定它在
使用
GPU
时是否最优。简单地说,就是在每次迭代时,计算分批(map)中每个数据点
的
误差梯度,通过
求和
/减少梯度取其平均值,最后根据平均梯度进行梯度阶跃更新。下一次迭代从更新
的
权重开始。库允许我
对
向量执行约简,例如,允许我
对
向量中
的</
浏览 5
提问于2015-09-21
得票数 2
回答已采纳
3
回答
如何
制作
CUDA
直方图内核?
histogram
、
cuda
我正在为图片
上
的
直方图编写一个
CUDA
内核,但我不知道
如何
从内核返回一个
数组
,并且当其他线程读取它时,
数组
会发生变化。有什么可能
的
解决方案吗?@para data:直方图大小为255
的
数组
cuda
_Hist(TColor *d_dst, int imageW, int imageH,int* data) {
浏览 0
提问于2010-06-05
得票数 2
回答已采纳
3
回答
如何
从
GPU
上
的
3D
数组
输出向量,即每个切片或页
的
和
matlab
、
3d
、
parallel-processing
、
gpu
我试图在Matlab中完成
的
过程: % My stab at it:array); Array = gather(Array); % Desired output: Array = 1x1x5 vector of 9's 这会引发一个错误,而pagefun不喜欢
求和
函数在CPU
上
浏览 4
提问于2016-05-13
得票数 1
回答已采纳
1
回答
并行约简技术
cuda
、
parallel-processing
我有这段C++代码,我想把它移植到
CUDA
上
。
浏览 2
提问于2013-01-28
得票数 0
1
回答
把
CUDA
与Python
的
ODEInt和并行归约结合起来
python
、
cuda
、
parallel-processing
、
reduction
、
pycuda
我有一个N浓度
的
np
数组
,每个元素都是i+1长度聚合物
的
浓度。我有一个
使用
CUDA
计算聚合物浓度变化率
的
函数,其中每个内核计算一个特定长度聚合物
的
变化率。在此计算过程中,(N-i-1)长度
数组
需要由线程
求和
,这会大大减慢我
的
代码速度。 在做了一些阅读和谷歌搜索后,我发现并行缩减是一种调用并行性
的
方式,可以让像
数组
和这样
的
串行计算变得更快。这是一本很棒
的</
浏览 0
提问于2013-05-15
得票数 0
回答已采纳
1
回答
在
gpu
上
按
数组
排序
sorting
、
cuda
、
gpgpu
、
openacc
//comparator compar()} 因此,我需要对一组配对进行排序,这些配对通过OpenAcc
的
CUDA
的
方式分配到图形处理器
上
。据我所知,我不太可能在
GPU
上
对
std::pair
的
std::array进行排序。实际
上
,我需要根据
gpu
上
分配
的
另一个
数组
对
一个
数组
进行排序,也就是说,如
浏览 1
提问于2018-07-16
得票数 0
2
回答
将C语言中
的
图像加载到无符号字符
c++
、
c
、
image
、
image-processing
、
cuda
我必须将BMP文件加载到unsigned char并将其发送到
CUDA
函数(我找到了这个:)。px[0] = R , px[1] = G, px[2] = B, px[3] = A等等。 也许我测试
的
图像太小了?(10x10px)。
浏览 3
提问于2012-06-08
得票数 0
回答已采纳
1
回答
什么是指
GPU
上下文,
GPU
硬件通道在NVIDIA
的
架构中
cuda
、
gpu
、
nvidia
、
gpgpu
、
cuda-context
在阅读一些与
GPU
计算有关
的
论文时,我坚持理解
GPU
上下文和
GPU
硬件通道 bellow这两个术语,但我不明白它们
的
意思, 命令:
GPU
使用
体系结构专用命令进行操作。每个
GPU
上下文都分配一个FIFO队列,运行在CPU
上
的
程序向队列提交命令。只有当
GPU
本身发出相应
的
命令时,才会触发
GPU
上
的
计算和数据传输。通道:为每个
浏览 9
提问于2014-04-15
得票数 3
回答已采纳
1
回答
numba是否在功能之间将数据从
GPU
传递到CPU?
python
、
numba
我习惯于把更大
的
工作分解成更小
的
功能,只要这个函数做一个或多或少独特
的
操作。data = importData()data = func2(data)但是,如果我将这些函数转换为通过numba (
使用
@njit装饰符)在
cuda
上
运行,那么faster...but可能会更快(也就是说,在调用每个函数时,通过将数据传输到
gpu
或从
gpu
传输数据会造成巨大
的
开
浏览 3
提问于2020-08-28
得票数 1
回答已采纳
1
回答
加速神经网络计算
python
、
gpu
、
numba
、
acceleration
我正在努力完成Nvidia
的
“
CUDA
Python加速计算基础”课程,并完成了重构一些代码
的
简单版本
的
任务,这些代码执行在神经网络中创建隐藏层所需
的
工作:from"weigh": weigh,print(a)wei
浏览 19
提问于2022-09-19
得票数 1
1
回答
查找支持
的
GPU
cuda
、
gpu
、
nvidia
我想知道最新
的
CUDA
版本,即8.0,是否支持我
的
计算机中
的
GPU
,即GeForce GTX 970和Quadro K4200 (一个双
GPU
系统);我无法在网上找到这些信息。一般来说,
如何
找到一个
CUDA
版本,特别是新发布
的
版本,是否支持特定
的
Nvidia
GPU
? 谢谢!
浏览 0
提问于2016-10-04
得票数 1
回答已采纳
1
回答
库达: cudaMallocManaged处理出口吗?
c++
、
cuda
如果(在C++ +
CUDA
中) cudaMallocManaged()用于在主机和
GPU
内存中分配共享
数组
,而程序遇到(例如在主机代码中)一个exit(1),这是否会永久地在
GPU
中留下悬空内存?我猜答案是不基于
的
,但我不确定
GPU
是否有某种回收机制。
浏览 2
提问于2018-10-04
得票数 0
回答已采纳
5
回答
如果我没有指定
使用
CPU/
GPU
,我
的
脚本
使用
哪一个?
python
、
pytorch
如果我没有写任何关于
使用
CPU/
GPU
的
文章,并且我
的
机器支持
CUDA
(torch.
cuda
.is_available() == True): 我
的
脚本
使用
什么,CPU还是
GPU
?如果是CPU,我应该怎么做才能让它在
GPU
上
运行?我需要重写所有东西吗?如果
GPU
,如果torch.
cuda
.is_available() == False,这个脚本会崩
浏览 2
提问于2018-05-23
得票数 12
回答已采纳
1
回答
PyCuda程序继续运行
python-3.x
、
matrix
、
pycharm
、
anaconda
、
pycuda
) greenarray_
gpu
=
cuda
.mem_alloc(self.greencont.nbytes)
cuda
.memcpy_htod(redarray_
gpu
, self
浏览 2
提问于2018-06-28
得票数 0
2
回答
如何
检查张量是否在库达
上
,还是将其发送给焦火炬中
的
库达?
python
、
pytorch
、
gpu
、
tensor
我有张量
如何
检查它是否在
gpu
上
,并发送到
gpu
并返回?
浏览 6
提问于2020-12-20
得票数 15
回答已采纳
2
回答
通过示例代码实现
CUDA
VecAdd
arrays
、
c
、
parallel-processing
、
cuda
、
gpu
我正在尝试测试来自
CUDA
站点
的
示例代码。print_array(B, N); print_array(C, N);}1 2 3 40 0 0 0 我遗漏了什么?
浏览 0
提问于2012-11-22
得票数 6
回答已采纳
1
回答
如何
告诉Flux.jl不要
使用
图形处理器?
julia
、
flux.jl
我正在尝试设置我
的
机器学习训练循环,但我不希望它
使用
我计算机上
的
GPU
。我已经安装了
CUDA
,但是我想在CPU
上
运行我
的
代码。我
如何
在Flux.jl中做到这一点?
浏览 11
提问于2021-06-30
得票数 2
回答已采纳
1
回答
如何
强制Theano并行化
GPU
上
的
操作(测试用例: numpy.bincount)
python
、
performance
、
optimization
、
gpu
、
theano
我正在寻找
的
可能性,以加快计算二进制
使用
GPU
。best of 3: 2.33 ms per loopx = theano.shared(numpy.random.randint(0, 1000, 1000000))当然,这个操作是高度并行
的
,但是在
GPU
上</
浏览 2
提问于2015-12-29
得票数 3
6
回答
如何
选择要在哪个
GPU
上
运行作业?
cuda
、
nvidia
在多
GPU
计算机中,
如何
指定一个
CUDA
作业应该在哪个
GPU
上
运行? 例如,在安装
CUDA
时,我选择安装NVIDIA_
CUDA
-<#.除了$
CUDA
_VISIBLE_DEVICES$之外,我还看到其他文章引用了环境变量$
CUDA
_DEVICES,但这些都没有设置,也没有找到关于
如何
使用
它
的
信息。虽然与我
的
问题没有直接关系,但是
使用
nbody
浏览 11
提问于2016-09-22
得票数 122
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券