cuda函数的自动内存管理

假设我们通过PyTorch以外的其他方式在GPU 上分配了一些数组，例如通过使用numba.cuda.device_array创建GPU数组。当PyTorch为一些张量分配稍后的GPU内存时，会不会意外地覆盖我们的第一个CUDA数组所使用的内存空间？一般来说，由于PyTorch和Numba使用相同的CUDA运行时，因此我假设了相同的内存管理机制，它们是否自

浏览 1提问于2020-03-09得票数 1

回答已采纳

1回答

为什么一个带有10x10x3的Conv2d占用了850 of的gpu？

、、、

如果我运行以下代码，nvidia-smi显示我在gpu上使用了850MiB / 7979MiB内存。为什么会是这样呢？与torch.no_grad()：a= nn.Conv2d(10,10,3).cuda() 我设想会在某个地方指定一些开销或默认的分配大小，但我找不到这样的文档。我确实记得，tensorflow有一个限制分配的内存量的设置。

浏览 3提问于2020-06-08得票数 2

回答已采纳

1回答

解剖火炬模型是否降低了内存的使用率？

、

假设我有一个Pytorch自动编码器模型，定义为： def __init__(self, z_dim, n_channel=3, size_=x_reconstructed = self.decoder(z)现在，我可以直接在代码中使用ae和Decoder代码，而不是定义一个特定的Decoder我知道总参数的数量不会改变，但我的问题是:既然这两个模型现在是分开的，那么代码是否有可能

浏览 1提问于2021-05-06得票数 0

回答已采纳

2回答

我正在尝试用CUDA来增强一个小的C++项目。我的项目使用了一个定制库的类和函数，例如Matrix3d, Vector3d, Plane2d等，它们大多是几何对象。当我尝试在设备(无论是__host__ __device__函数还是内核)中使用我的代码时，所有的库函数/对象都被视为主机代码，并且我得到了多个警告和错误，例如error: identifier "Plane3d::~Plane3d" is undefined

浏览 2提问于2012-12-04得票数 3

回答已采纳

2回答

Tensorflow新Op CUDA内核内存管理

、

我已经在Tensorflow实现了一个相当复杂的新操作系统，它有一个GPU CUDA内核。此操作需要大量动态内存分配变量，这些变量不是张量，在操作完成后被解除分配，更具体地说，它涉及使用哈希表。现在我正在使用cudaMalloc()和cudaFree()，但是我注意到Tensorflow有自己的类型Eigen::GPUDevice，它能够在GPU上分配和释放内存。我的问题：使用Eigen::GPUDevice管理GPU内存是最佳实践吗？通过使用E

浏览 1提问于2018-02-02得票数 6

回答已采纳

3回答

将CUDA* cudaMemcpy分割成块*

、、、

我和一位同事就如何减少主机和设备之间的内存传输时间进行了头脑风暴，结果发现，也许把事情安排成一个大传输(即一个电话)可能会有帮助。这导致我创建了一个测试用例，在这个测试用例中，我花费了传输少量大数据块和许多小数据块的时间。我得到了一些非常有趣/奇怪的结果，并想知道这里是否有人有解释？我不会把我的全部代码放在这里，因为它很长，但是我用两种不同的方式测试了代码块：cudaEventRecord(起始值，0)；

浏览 4提问于2011-07-25得票数 1

1回答

在device函数中分配内存

、、

在CUDA中是否有一种在设备端功能中动态分配内存的方法？我找不到任何这样做的例子。来自数据自动化系统C方案编制手册：Size_t大小；无空洞( void* ptr)；从全局内存中的固定大小堆中动态分配和释放内存。CUDA内核中的malloc()函数从设备堆中分配至少大小的字节，并返回一个指向分配内存的</e

浏览 4提问于2011-01-17得票数 14

2回答

CODA5.5 cudaMemcpyToSymbol、constant和范围外错误

、

我正在试图编译一个CUDA的例子，其中有；__constant__ unsigned VERTICES;以及main.cpp中相应的代码；cudaMemcpyToSymbol(TRIANGLES, &trianglesNo, sizeof(int)); 如何在编译main.cpp时避免“在此范围内未声明<em

浏览 7提问于2013-12-12得票数 1

回答已采纳

3回答

单线程内的库达内存操作顺序

“数据自动化系统方案编制指南”(第5.5节)： CUDA线程从共享内存、全局内存、页面锁定主机内存或对等设备

浏览 2提问于2014-01-18得票数 2

2回答

为什么函数调用顺序会影响运行时？

、、

我使用pyTorch在我的GPU上运行计算(RTX 3000，CUDA 11.1)。一个步骤是计算一个点和一个点数组之间的距离。对于踢，我测试了两个函数，以确定哪个函数更快，如下所示：import functoolsimport torch # define functions for ca

浏览 0提问于2021-08-30得票数 5

2回答

在哪里可以找到有关CUDA* 4.0中的统一虚拟寻址的信息？*

在哪里可以找到有关使用CUDA 4.0中的新增强功能的信息/变更集/建议？我对了解统一虚拟寻址特别感兴趣。注意:我真的很想看到一个例子，因为我们可以直接从GPU访问RAM。

浏览 0提问于2011-03-10得票数 2

1回答

在删除不透明的FFI对象之前，垃圾收集需要多长时间？有没有可能以某种方式加快速度？

、、、

我考虑将Haskell绑定到用C++ (我会编写一个普通的C包装器)和CUDA编写的量子力学库中。一个主要的瓶颈始终是CUDA部件使用的GPU内存。在C++中，这是非常有效的处理，因为所有的对象都有自动的内存管理，即一旦它们离开作用域就会被擦除。此外，我使用C++11移动语义来避免复制，这些显然在Haskell中是不必要的。然而，我担心当从垃圾收集的</e

浏览 1提问于2012-05-24得票数 6

回答已采纳

1回答

GPU内存在CUDA脚本执行后不释放自己

、、、、

在执行CUDA脚本(即使使用cudaFree())之后，我的图形卡保留内存出现了问题。+-----------------------------------------------------------------------------+ 有没有任何方法可以在不重新启动的情况下释放这个内存此外，如果我没有在CUDA脚本中正确地<em

浏览 4提问于2015-04-06得票数 2

回答已采纳

1回答

从tensorflow脚本捕获CUDA_ERROR_OUT_OF_MEMORY

、、、、

当你想训练一个神经网络时，你需要设定一个批次的大小。批处理大小越大，GPU内存消耗就越高。当您缺少GPU内存时，tensorflow会发出这样的消息： 2021-03-29 15:45:04.185417: E tensorflow/stream_executor/cuda/cuda_driver.cc解决办法是减少批处理的大小。当我收到这条消息时，我希望能够捕捉到这个异常，这样我就可以向视图发送一条消息，甚至可以自动减小

浏览 0提问于2021-03-29得票数 4

1回答

这里提到的“可疑”GPU特性是什么？

、、

来自作者在这里指的是什么？

浏览 3提问于2013-08-27得票数 1

回答已采纳

3回答

Apache mod_wsgi django调用keras模型时，如何释放占用的GPU内存？

、、、

我的服务器配置如下：谢谢!

浏览 17提问于2017-05-12得票数 15

回答已采纳

2回答

监视NVENC硬件(活动或空闲)

、、、、

我们可以使用nvenc硬件查询可用的GPU，如下所示：{我们如何检查特定的NVENC硬件现在正在运行或闲置。具体的NVENC函数“或”CUDA驱动程序或API函数

浏览 0提问于2013-08-09得票数 0

回答已采纳

1回答

如何在运行过程中彻底销毁(清洁、重置) CUDA应用程序

、

现在我计划使用BLCR为CUDA应用程序创建检查点/重新启动库。因为，如果进程保持在GPU上，则BLCR无法运行cr_checkpoint。实际上，我试图在某个时候调用cudaDeviceReset()，在调用睡眠(1000)之后，在睡眠系统呼叫期间，我发送了这样的信号：cr_checkpoint PID。-12重新启动失败:无法分配内存我计划使用BLCR为CUDA应用程序创建检查点/重新启动库。

浏览 5提问于2014-02-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云