腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
使用
cupy
进行
异步
GPU
内存
传输
、
、
是否可以
使用
cupy
(或chainer)将
内存
从
GPU
异步
转移到
GPU
?
内存
传输
时间是该应用程序的主要瓶颈。我认为
异步
内存
传输
解决了这个问题,即在计算一个小批量时,另一
浏览 13
提问于2017-11-23
得票数 9
回答已采纳
1
回答
如何
使用
CUDA将“零拷贝”
内存
固定在
内存
映射文件中?
、
、
、
、
目标/问题在先前的溢出帖子[ ]中到目前为止我尝试过的
CuPy
无法处理mmap
内存
。因此,<em
浏览 0
提问于2019-09-02
得票数 5
回答已采纳
1
回答
使用
统一分配器的DASK
GPU
耗尽
内存
、
、
我目前正试图在CPU上创建一个大
内存
,将大块数据移动到
GPU
以执行乘法,然后将其移回CPU。我一直得到一个
内存
错误,即使是矩阵的大小(512,512,1000)。我在网上搜索过,有人指出,一个问题可能是
内存
分配器,它可以被设置为自动完成。但是,我一直得到
内存
错误。import
cupy
as cpimport dask.array as dafromcudf.set_a
浏览 6
提问于2022-10-17
得票数 0
回答已采纳
1
回答
如何充分释放
GPU
内存
的功能
、
我在一个函数中
使用
cupy
,该函数接收numpy数组,将其插入
GPU
,对其执行一些操作,并返回其cp.asnumpy副本。最后,我还尝试在函数中调用cp.在主代码中导入
cupy
并调用free_all_blocks“
浏览 0
提问于2018-11-29
得票数 4
回答已采纳
1
回答
CuPy
随机-如何在同一
内存
中生成新的随机集?
、
我正在生成大量的随机数,总共超过
GPU
上可用
内存
的一半。我在循环中做这件事。在生成一个新的随机数组之前显式地释放
内存
是非常缓慢的,而且看起来效率很低。 是否有一种方法来生成一组新的数字,但在相同的
内存
空间?编辑:
cupy
.random.shuffle()允许我解决这个问题,但我想知
浏览 6
提问于2020-08-12
得票数 0
回答已采纳
1
回答
为什么
cupy
自动将数据从
GPU
内存
传输
到CPU
内存
?
、
、
、
我正在
使用
nvidia jetson nano,需要
使用
cupy
和它的
gpu
加速相关的计算,它工作得很好。
浏览 13
提问于2022-05-30
得票数 0
1
回答
cuda函数的自动
内存
管理
、
、
我一直在尝试
使用
一些用于python的cuda库来
进行
线性代数运算。到目前为止,最直截了当的似乎是
cupy
。然而,我遇到的所有这些操作的问题是,每当操作变得足够大,以至于
gpu
计算感兴趣时,我就会遇到
内存
错误。 在
cupy
或类似的库中,有什么方法可以自动
进行
内存
管理吗?
浏览 13
提问于2020-04-30
得票数 0
1
回答
Dask-快速数据移动和
内存
不足问题
、
、
、
我在我的项目中
使用
了dask (2021.3.0)和rapids(0.18)。在这个过程中,我在CPU上执行预处理任务,然后将预处理后的数据
传输
到
GPU
进行
K均值聚类。但在这个过程中,我遇到了以下问题: 1个工作任务中的1个失败: std::bad_alloc: CUDA错误:
GPU
内存
不足(在完全
使用
~/envs/include/rmm/mr/device/cuda_memory_resource.hpp:
浏览 9
提问于2021-03-19
得票数 0
1
回答
TypeError:不支持的类型<type 'numpy.ndarray'>
、
、
我想尝试
cupy
的图像曝光融合过程,因为我们在算法中
使用
了大量的numpy。下面的代码部分显示了导致错误的函数和行。 File "
cupy
\_core\_kernel.pyx", line 138, in <e
浏览 13
提问于2022-10-18
得票数 0
1
回答
ValueError:非标量numpy.ndarray不能用于填充-
CuPy
、
、
、
、
当我尝试
使用
库
CuPy
和osgeo时,我将面临以下错误:我试着填充这个数组:im =
cupy
.zeros([ds.RasterYSize, ds.RasterXSize, ds.RasterCount], dtype=np.float32) for x in range
浏览 5
提问于2021-08-03
得票数 2
2
回答
如何利用
GPU
将大型dask数组(numpy.ndarray)写入Zarr文件?
、
、
、
、
我正在尝试
使用
dask将一个大的dask数组(46 GB,124 -- 370MB块)写入zarr文件。我想要做的是
使用
并行,将大部分工作分配给Quadro GV100图形处理器。我尝试通过dask_data_
cupy
= dask_data.map_blocks(
cupy
.asarray)将numpy.ndarray转换为
cupy
.ndarray,并将其写出到zarr文件中,但我收到以下消息如何
使用
GPU
将dask数组并行化写入zarr文件? 谢谢!
浏览 0
提问于2020-02-08
得票数 1
1
回答
CUDA
异步
内存
复制-哪个硬件设备执行
内存
复制操作?
我一直在研究
异步
CUDA操作,并读到有一个内核执行(“计算”)队列和两个
内存
复制队列,一个用于主机到设备(H2D),另一个用于设备到主机(D2H)。假设我正确理解了这一切,我的问题是,是哪个设备“管理”数据的
传输
?进一步的读取表明
GPU
具有对主机(CP
浏览 0
提问于2021-06-05
得票数 0
3
回答
有没有办法用多个
GPU
来促进矩阵乘法?
、
、
、
、
我在一个有几个
GPU
的服务器上运行这个任务,比如说8 RTX 3090
GPU
,它们的
内存
大小是24 it,显然,矩阵不能适应它,所以我不能直接
使用
cupy
.array。以下是我的想法: 将结果块检索到主
内存
,重新组装它们。我想并行
使用
GPU
,我认为瓶颈是<em
浏览 22
提问于2021-12-29
得票数 3
2
回答
cupy
函数的第一次运行和后续运行的执行时间有很大的差异
当我在
cupy
数组上运行
cupy
函数时,函数的第一次调用比第二次调用花费的时间要长得多,即使我第二次在不同的数组上运行它。import
cupy
as cp cp.
浏览 6
提问于2020-06-20
得票数 0
回答已采纳
1
回答
在
使用
GPU
的Google Colab上出现
Cupy
内存
错误-但这只是我第二次运行代码
、
、
我正在尝试
使用
Cupy
在两个大型数组上
进行
矩阵乘法,因为它比
使用
CPU快得多(大约100倍)。我的问题是,它在我第一次运行它的时候就可以工作了,但是第二次运行的时候,它就给了我一个
内存
错误。__init__()
cupy
/cuda/memory.pyx in
cupy
.cuda.memory.M
浏览 0
提问于2020-08-01
得票数 1
2
回答
使用
cupy
时
内存
不足
、
当我
使用
cupy
来处理一些大数组时,出现了
内存
错误,但是当我检查nvidia-smi来查看
内存
使用
情况时,它没有达到我的
GPU
内存
的极限,我
使用
的是nvidia geforce RTX 2060,
GPU
内存
是6GB,下面是我的代码:print(mempool.used_bytes()
浏览 0
提问于2019-10-28
得票数 1
回答已采纳
2
回答
如何缓解OpenCL/CUDA中的主机+设备
内存
传输
瓶颈
、
、
、
如果我的算法被主机到设备和设备到主机的
内存
传输
遇到瓶颈,唯一的解决方案是不同的算法还是修改后的算法?
浏览 0
提问于2010-10-20
得票数 3
回答已采纳
1
回答
如何在OpenCV中
使用
gpu
::Stream?
、
、
OpenCV具有封装
异步
调用队列的
gpu
::Stream类。某些函数
使用
附加的
gpu
::Stream参数
进行
重载。除了之外,OpenCV文档中几乎没有关于如何以及何时
使用
gpu
::Stream的信息。例如,(我)不太清楚
gpu
::Stream::enqueueConvert或
gpu
::Stream::enqueueCopy到底做了什么,或者如何
使用
gpu
::Stream作为额外的重载参数。我在找一些
浏览 0
提问于2013-07-25
得票数 4
回答已采纳
2
回答
CUDA: CPU代码与
GPU
代码并行
我有一个程序,我在
GPU
上做了一堆计算,然后在CPU上对这些结果
进行
内存
操作,然后我取下一批if数据,从头到尾做同样的事情。现在,如果我可以做第一组计算,然后开始第二批计算,而我的CPU却在
内存
操作上挥之不去,那就快多了。我该怎么做呢?
浏览 1
提问于2011-06-22
得票数 3
回答已采纳
1
回答
什么时候调用cudaMemcpyAsync时重用CPU缓冲区是安全的?
或者我应该
使用
N个主机缓冲区来发出
gpu
计算?顺便说一下。根据我在这里所读到的,在memcpy
异步
返回后,我似乎可以在内部重用,对吗? 对于从可分页的主机
内存
到设备
内存
的
传输
,主机
内存
将立即复制到暂存缓冲区(不执行设备同步)。该函数将在分页缓冲区复制到暂存
内存
后返回。到最终目的地的DMA
传输
可
浏览 0
提问于2013-04-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用JavaScript进行异步编程
使用 Kafka和MongoDB 进行 Go 异步处理
使用Python在GPU上实现两张图像的像素循环赋值
用 CuPy 呀
使用Accelerate库在多GPU上进行LLM推理
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券