使用cupy进行异步GPU内存传输

我目前正试图在CPU上创建一个大内存，将大块数据移动到GPU以执行乘法，然后将其移回CPU。我一直得到一个内存错误，即使是矩阵的大小(512,512,1000)。我在网上搜索过，有人指出，一个问题可能是内存分配器，它可以被设置为自动完成。但是，我一直得到内存错误。import cupy as cpimport dask.array as dafromcudf.set_a

浏览 6提问于2022-10-17得票数 0

回答已采纳

1回答

如何充分释放GPU内存的功能

、

我在一个函数中使用cupy，该函数接收numpy数组，将其插入GPU，对其执行一些操作，并返回其cp.asnumpy副本。最后，我还尝试在函数中调用cp.在主代码中导入cupy并调用free_all_blocks“

浏览 0提问于2018-11-29得票数 4

回答已采纳

1回答

CuPy随机-如何在同一内存中生成新的随机集？

、

我正在生成大量的随机数，总共超过GPU上可用内存的一半。我在循环中做这件事。在生成一个新的随机数组之前显式地释放内存是非常缓慢的，而且看起来效率很低。是否有一种方法来生成一组新的数字，但在相同的内存空间？编辑: cupy.random.shuffle()允许我解决这个问题，但我想知

浏览 6提问于2020-08-12得票数 0

回答已采纳

1回答

为什么cupy自动将数据从GPU内存传输到CPU内存？

、、、

我正在使用nvidia jetson nano，需要使用cupy和它的gpu加速相关的计算，它工作得很好。

浏览 13提问于2022-05-30得票数 0

1回答

cuda函数的自动内存管理

、、

我一直在尝试使用一些用于python的cuda库来进行线性代数运算。到目前为止，最直截了当的似乎是cupy。然而，我遇到的所有这些操作的问题是，每当操作变得足够大，以至于gpu计算感兴趣时，我就会遇到内存错误。在cupy或类似的库中，有什么方法可以自动进行内存管理吗？

浏览 13提问于2020-04-30得票数 0

1回答

我在我的项目中使用了dask (2021.3.0)和rapids(0.18)。在这个过程中，我在CPU上执行预处理任务，然后将预处理后的数据传输到GPU进行K均值聚类。但在这个过程中，我遇到了以下问题： 1个工作任务中的1个失败: std::bad_alloc: CUDA错误: GPU内存不足(在完全使用~/envs/include/rmm/mr/device/cuda_memory_resource.hpp:

浏览 9提问于2021-03-19得票数 0

1回答

TypeError:不支持的类型<type 'numpy.ndarray'>

、、

我想尝试cupy的图像曝光融合过程，因为我们在算法中使用了大量的numpy。下面的代码部分显示了导致错误的函数和行。 File "cupy\_core\_kernel.pyx", line 138, in <e

浏览 13提问于2022-10-18得票数 0

1回答

ValueError:非标量numpy.ndarray不能用于填充- CuPy

、、、、

当我尝试使用库CuPy和osgeo时，我将面临以下错误：我试着填充这个数组：im = cupy.zeros([ds.RasterYSize, ds.RasterXSize, ds.RasterCount], dtype=np.float32) for x in range

浏览 5提问于2021-08-03得票数 2

2回答

如何利用GPU将大型dask数组(numpy.ndarray)写入Zarr文件？

、、、、

我正在尝试使用dask将一个大的dask数组(46 GB，124 -- 370MB块)写入zarr文件。我想要做的是使用并行，将大部分工作分配给Quadro GV100图形处理器。我尝试通过dask_data_cupy = dask_data.map_blocks(cupy.asarray)将numpy.ndarray转换为cupy.ndarray，并将其写出到zarr文件中，但我收到以下消息如何使用GPU将dask数组并行化写入zarr文件？谢谢!

浏览 0提问于2020-02-08得票数 1

1回答

CUDA异步内存复制-哪个硬件设备执行内存复制操作？

我一直在研究异步CUDA操作，并读到有一个内核执行(“计算”)队列和两个内存复制队列，一个用于主机到设备(H2D)，另一个用于设备到主机(D2H)。假设我正确理解了这一切，我的问题是，是哪个设备“管理”数据的传输？进一步的读取表明GPU具有对主机(CP

浏览 0提问于2021-06-05得票数 0

3回答

有没有办法用多个GPU来促进矩阵乘法？

、、、、

我在一个有几个GPU的服务器上运行这个任务，比如说8 RTX 3090 GPU，它们的内存大小是24 it，显然，矩阵不能适应它，所以我不能直接使用cupy.array。以下是我的想法：将结果块检索到主内存，重新组装它们。我想并行使用GPU，我认为瓶颈是<em

浏览 22提问于2021-12-29得票数 3

2回答

cupy函数的第一次运行和后续运行的执行时间有很大的差异

当我在cupy数组上运行cupy函数时，函数的第一次调用比第二次调用花费的时间要长得多，即使我第二次在不同的数组上运行它。import cupy as cp cp.

浏览 6提问于2020-06-20得票数 0

回答已采纳

1回答

在使用GPU的Google Colab上出现Cupy内存错误-但这只是我第二次运行代码

、、

我正在尝试使用Cupy在两个大型数组上进行矩阵乘法，因为它比使用CPU快得多(大约100倍)。我的问题是，它在我第一次运行它的时候就可以工作了，但是第二次运行的时候，它就给了我一个内存错误。__init__() cupy/cuda/memory.pyx in cupy.cuda.memory.M

浏览 0提问于2020-08-01得票数 1

2回答

使用cupy时内存不足

、

当我使用cupy来处理一些大数组时，出现了内存错误，但是当我检查nvidia-smi来查看内存使用情况时，它没有达到我的GPU内存的极限，我使用的是nvidia geforce RTX 2060，GPU内存是6GB，下面是我的代码：print(mempool.used_bytes()

浏览 0提问于2019-10-28得票数 1

回答已采纳

2回答

如何缓解OpenCL/CUDA中的主机+设备内存传输瓶颈

、、、

如果我的算法被主机到设备和设备到主机的内存传输遇到瓶颈，唯一的解决方案是不同的算法还是修改后的算法？

浏览 0提问于2010-10-20得票数 3

回答已采纳

1回答

如何在OpenCV中使用gpu::Stream？

、、

OpenCV具有封装异步调用队列的gpu::Stream类。某些函数使用附加的gpu::Stream参数进行重载。除了之外，OpenCV文档中几乎没有关于如何以及何时使用gpu::Stream的信息。例如，(我)不太清楚gpu::Stream::enqueueConvert或gpu::Stream::enqueueCopy到底做了什么，或者如何使用gpu::Stream作为额外的重载参数。我在找一些

浏览 0提问于2013-07-25得票数 4

回答已采纳

2回答