腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
cuda
函数
的
自动
内存
管理
、
、
我一直在尝试使用一些用于python
的
cuda
库来进行线性代数运算。到目前为止,最直截了当
的
似乎是cupy。然而,我遇到
的
所有这些操作
的
问题是,每当操作变得足够大,以至于gpu计算感兴趣时,我就会遇到
内存
错误。 在cupy或类似的库中,有什么方法可以
自动
进行
内存
管理
吗?
浏览 13
提问于2020-04-30
得票数 0
2
回答
是否可以使用OpenCL分配设备
内存
,并使用指向
CUDA
中
内存
的
指针?
、
、
、
假设我使用OpenCL来
管理
内存
(以便GPU/CPU之间
的
内存
管理
使用相同
的
代码),但我
的
计算使用优化
的
CUDA
和CPU代码(而不是OpenCL)。我是否仍然可以使用OpenCL设备
内存
指针并将其传递给
CUDA
函数
/内核?
浏览 1
提问于2015-04-16
得票数 1
1
回答
有任何保证火炬不会弄乱一个已经分配
的
CUDA
阵列吗?
、
、
、
假设我们通过PyTorch以外
的
其他方式在GPU 上分配了一些数组,例如通过使用numba.
cuda
.device_array创建GPU数组。当PyTorch为一些张量分配稍后
的
GPU
内存
时,会不会意外地覆盖我们
的
第一个
CUDA
数组所使用
的
内存
空间?一般来说,由于PyTorch和Numba使用相同
的
CUDA
运行时,因此我假设了相同
的
内存
管理
机制,它们是否
自
浏览 1
提问于2020-03-09
得票数 1
回答已采纳
1
回答
为什么一个带有10x10x3
的
Conv2d占用了850 of
的
gpu?
、
、
、
如果我运行以下代码,nvidia-smi显示我在gpu上使用了850MiB / 7979MiB
内存
。为什么会是这样呢?与torch.no_grad():a= nn.Conv2d(10,10,3).
cuda
() 我设想会在某个地方指定一些开销或默认
的
分配大小,但我找不到这样
的
文档。我确实记得,tensorflow有一个限制分配
的
内存
量
的
设置。
浏览 3
提问于2020-06-08
得票数 2
回答已采纳
1
回答
解剖火炬模型是否降低了
内存
的
使用率?
、
假设我有一个Pytorch
自动
编码器模型,定义为: def __init__(self, z_dim, n_channel=3, size_=x_reconstructed = self.decoder(z)现在,我可以直接在代码中使用ae和Decoder代码,而不是定义一个特定
的
Decoder我知道总参数
的
数量不会改变,但我
的
问题是:既然这两个模型现在是分开
的
,那么代码是否有可能
浏览 1
提问于2021-05-06
得票数 0
回答已采纳
2
回答
在
CUDA
项目中使用外部库类
、
、
我正在尝试用
CUDA
来增强一个小
的
C++项目。我
的
项目使用了一个定制库
的
类和
函数
,例如Matrix3d, Vector3d, Plane2d等,它们大多是几何对象。当我尝试在设备(无论是__host__ __device__
函数
还是内核)中使用我
的
代码时,所有的库
函数
/对象都被视为主机代码,并且我得到了多个警告和错误,例如error: identifier "Plane3d::~Plane3d" is undefined
浏览 2
提问于2012-12-04
得票数 3
回答已采纳
2
回答
Tensorflow新Op
CUDA
内核
内存
管理
、
我已经在Tensorflow实现了一个相当复杂
的
新操作系统,它有一个GPU
CUDA
内核。此操作需要大量动态
内存
分配变量,这些变量不是张量,在操作完成后被解除分配,更具体地说,它涉及使用哈希表。现在我正在使用cudaMalloc()和cudaFree(),但是我注意到Tensorflow有自己
的
类型Eigen::GPUDevice,它能够在GPU上分配和释放
内存
。我
的
问题: 使用Eigen::GPUDevice
管理
GPU
内存
是最佳实践吗?通过使用E
浏览 1
提问于2018-02-02
得票数 6
回答已采纳
3
回答
将
CUDA
cudaMemcpy分割成块
、
、
、
我和一位同事就如何减少主机和设备之间
的
内存
传输时间进行了头脑风暴,结果发现,也许把事情安排成一个大传输(即一个电话)可能会有帮助。这导致我创建了一个测试用例,在这个测试用例中,我花费了传输少量大数据块和许多小数据块
的
时间。我得到了一些非常有趣/奇怪
的
结果,并想知道这里是否有人有解释?我不会把我
的
全部代码放在这里,因为它很长,但是我用两种不同
的
方式测试了代码块:cudaEventRecord(起始值,0);
浏览 4
提问于2011-07-25
得票数 1
1
回答
在__device__
函数
中分配
内存
、
、
在
CUDA
中是否有一种在设备端功能中动态分配
内存
的
方法?我找不到任何这样做
的
例子。来自数据
自动
化系统C方案编制手册:Size_t大小;无空洞( void* ptr); 从全局
内存
中
的
固定大小堆中动态分配和释放
内存
。
CUDA
内核中
的
malloc()
函数
从设备堆中分配至少大小
的
字节,并返回一个指向分配
内存
的</e
浏览 4
提问于2011-01-17
得票数 14
2
回答
CODA5.5 cudaMemcpyToSymbol、__constant__和范围外错误
、
我正在试图编译一个
CUDA
的
例子,其中有;__constant__ unsigned VERTICES;以及main.cpp中相应
的
代码;cudaMemcpyToSymbol(TRIANGLES, &trianglesNo, sizeof(int)); 如何在编译main.cpp时避免“在此范围内未声明<em
浏览 7
提问于2013-12-12
得票数 1
回答已采纳
3
回答
单线程内
的
库达
内存
操作顺序
“数据
自动
化系统方案编制指南”(第5.5节):
CUDA
线程从共享
内存
、全局
内存
、页面锁定主机
内存
或对等设备
浏览 2
提问于2014-01-18
得票数 2
2
回答
为什么
函数
调用顺序会影响运行时?
、
、
我使用pyTorch在我
的
GPU上运行计算(RTX 3000,
CUDA
11.1)。一个步骤是计算一个点和一个点数组之间
的
距离。对于踢,我测试了两个
函数
,以确定哪个
函数
更快,如下所示:import functoolsimport torch # define functions for ca
浏览 0
提问于2021-08-30
得票数 5
2
回答
在哪里可以找到有关
CUDA
4.0中
的
统一虚拟寻址
的
信息?
在哪里可以找到有关使用
CUDA
4.0中
的
新增强功能
的
信息/变更集/建议?我对了解统一虚拟寻址特别感兴趣。 注意:我真的很想看到一个例子,因为我们可以直接从GPU访问RAM。
浏览 0
提问于2011-03-10
得票数 2
1
回答
在删除不透明
的
FFI对象之前,垃圾收集需要多长时间?有没有可能以某种方式加快速度?
、
、
、
我考虑将Haskell绑定到用C++ (我会编写一个普通
的
C包装器)和
CUDA
编写
的
量子力学库中。一个主要
的
瓶颈始终是
CUDA
部件使用
的
GPU
内存
。在C++中,这是非常有效
的
处理,因为所有的对象都有
自动
的
内存
管理
,即一旦它们离开作用域就会被擦除。此外,我使用C++11移动语义来避免复制,这些显然在Haskell中是不必要
的
。然而,我担心当从垃圾收集
的</e
浏览 1
提问于2012-05-24
得票数 6
回答已采纳
1
回答
GPU
内存
在
CUDA
脚本执行后不释放自己
、
、
、
、
在执行
CUDA
脚本(即使使用cudaFree())之后,我
的
图形卡保留
内存
出现了问题。+-----------------------------------------------------------------------------+ 有没有任何方法可以在不重新启动
的
情况下释放这个
内存
此外,如果我没有在
CUDA
脚本中正确地<em
浏览 4
提问于2015-04-06
得票数 2
回答已采纳
1
回答
从tensorflow脚本捕获
CUDA
_ERROR_OUT_OF_MEMORY
、
、
、
、
当你想训练一个神经网络时,你需要设定一个批次
的
大小。批处理大小越大,GPU
内存
消耗就越高。当您缺少GPU
内存
时,tensorflow会发出这样
的
消息: 2021-03-29 15:45:04.185417: E tensorflow/stream_executor/
cuda
/
cuda
_driver.cc解决办法是减少批处理
的
大小。当我收到这条消息时,我希望能够捕捉到这个异常,这样我就可以向视图发送一条消息,甚至可以
自动
减小
浏览 0
提问于2021-03-29
得票数 4
1
回答
这里提到
的
“可疑”GPU特性是什么?
、
、
来自 作者在这里指的是什么?
浏览 3
提问于2013-08-27
得票数 1
回答已采纳
3
回答
Apache mod_wsgi django调用keras模型时,如何释放占用
的
GPU
内存
?
、
、
、
我
的
服务器配置如下: 谢谢!
浏览 17
提问于2017-05-12
得票数 15
回答已采纳
2
回答
监视NVENC硬件(活动或空闲)
、
、
、
、
我们可以使用nvenc硬件查询可用
的
GPU,如下所示:{我们如何检查特定
的
NVENC硬件现在正在运行或闲置。具体
的
NVENC
函数
“或”
CUDA
驱动程序或API
函数
浏览 0
提问于2013-08-09
得票数 0
回答已采纳
1
回答
如何在运行过程中彻底销毁(清洁、重置)
CUDA
应用程序
、
现在我计划使用BLCR为
CUDA
应用程序创建检查点/重新启动库。因为,如果进程保持在GPU上,则BLCR无法运行cr_checkpoint。实际上,我试图在某个时候调用cudaDeviceReset(),在调用睡眠(1000)之后,在睡眠系统呼叫期间,我发送了这样
的
信号:cr_checkpoint PID。-12重新启动失败:无法分配
内存
我计划使用BLCR为
CUDA
应用程序创建检查点/重新启动库。
浏览 5
提问于2014-02-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券