腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
统一
内存
分配
cuda
的
函数
关键字
、
、
、
、
我从
CUDA
编程开始,作为实现粒子积分器
的
开始,我创建了一个积分器类,它保存了关于粒子
的
数据,并且应该能够对其进行积分。数据来自另一个容器类,我想在
统一
内存
中
分配
这些数据。为此,我有一个成员
函数
'_allocate',它所做
的
就是为成员变量调用cudaMallocManaged。现在我想知道我应该用什么样
的
函数
关键字
来包装这个
函数
。我读到你不能在类定义中使用
浏览 24
提问于2019-10-24
得票数 1
回答已采纳
1
回答
主机启动变量
的
cudaMallocManaged
、
我有一个由主机设备生成
的
特征数组,我想通过
CUDA
的
统一
内存
将它放到GPU上。我发现
的
大多数示例首先传递指向cudaMallocManaged
的
指针,然后在启动数组之前将
内存
分配
到那里。我如何做相反
的
事情,即在主机上
分配
内存
,用值填充它,然后将其移动到
统一
内存
系统?
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
1
回答
是否有可能改变.NET数组
分配
方法?
、
、
、
我在.NET中通过P/Invoke使用
CUDA
。在
CUDA
中,它们提供了一种特殊
的
内存
分配
方法,它可以在GPU上
分配
内存
,同时可以从主机(当然,从.NET
的
角度访问非托管
内存
)访问它们。这被称为
CUDA
的
统一
内存
,它模糊了CPU和GPU
内存
之间
的
板。 那么,是否可以将默认
的
.NET数组
内存</
浏览 1
提问于2015-09-14
得票数 1
回答已采纳
1
回答
OpenACC和
统一
内存
、
、
你好,我尝试运行我
的
程序(使用OpenACC,OpenMP和
CUDA
统一
内存
)在谷歌云与特斯拉V100,它是成功运行,但我使用1xGPU8xCores和50 it
的
内存
,并尝试使用我所有的
内存
,所以我使用htop控制
内存
消耗和所有工作完美当我使用少量
内存
我有这样
的
数据:虚拟= 26.8G,分辨率= 21.5G,SHR = 7440M。当我尝试使用更多
的
RAM时,htop显示了这个: VIRT = 2
浏览 25
提问于2019-03-23
得票数 0
1
回答
cuda
统一
内存
泄漏
、
、
、
我正在写一个程序,用
cuda
做一些基本
的
物体检测。我遇到了一个问题,我用cudaMallocManaged
分配
统一
内存
,用它做一些处理,然后用cudaFree释放它。事件,但cudaFree从未返回错误,
内存
似乎从未真正得到释放,因为任务管理器显示系统
内存
使用量和gpu共享
内存
使用量都在持续增加。我对
统一
内存
的
理解有没有根本上
的
错误,或者这是个bug?最小示例: #include
浏览 51
提问于2020-04-21
得票数 3
回答已采纳
1
回答
创建
统一
内存
时需要提供Gpu上下文吗?
、
、
问题1)问题2) 假设我有2个GPU,每个都有1 GB
的
DRAM。那么我可以
分配
2 GB
的
统一
内存
吗?每个GPU占用一半
的</
浏览 3
提问于2017-05-25
得票数 3
1
回答
如何精确测量GPU (OpenACC+Managed
内存
)
的
内存
使用量
、
使用OpenACC与托管
内存
一起使用
的
应用程序
的
GPU
的
内存
使用量是最精确
的
方法吗?-------------------------------------------+ if (mem
浏览 16
提问于2022-09-20
得票数 0
回答已采纳
1
回答
在计算能力5.0中,如何通过CPU和GPU同时访问托管
内存
?
、
由于在计算能力低于6.x
的
设备上同时访问托管
内存
是不可能
的
,是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管
内存
或使CPU访问托管
内存
。
浏览 0
提问于2019-01-22
得票数 0
回答已采纳
1
回答
cudaMallocManaged与cudaMalloc -设备
内存
限制场景
、
、
、
我了解到,cudaMallocManaged通过消除主机和设备上显式
内存
分配
的
需要,简化了
内存
访问。假设主机
内存
比设备
内存
大得多,比如16 GB主机&2GB设备,这在当今相当常见。如果我处理
的
是大容量
的
输入数据,比如4-5GB,它是从外部数据源读取
的
。我是否被迫求助于显式主机和设备
内存
分配
(因为设备
内存
不足以同时容纳),还是
CUDA
统一
<
浏览 1
提问于2014-12-21
得票数 9
回答已采纳
1
回答
支持
CUDA
统一
内存
的
系统
分配
器
的
OS版本?
、
、
、
从发布
的
幻灯片中可以看出,通过调用malloc或new来使用系统
分配
器,而不是使用Nvidia
的
cudaMallocManaged,似乎只支持Linux内核版本4.14或更高版本?如果有,是否有方法查询Nvidia驱动程序或
CUDA
运行时,以了解系统
分配
器是否可以用于正确
分配
内存
块,以便在
CUDA
统一
内存
模型中使用?或者,如果检测到
的
操作系统不在白名单上,那么您是否必须保留操作系统/内核版
浏览 2
提问于2018-03-07
得票数 3
回答已采纳
2
回答
(OpenACC)池
分配
器:指定
的
池大小对于此设备当前文件来说太大了
我每次尝试运行应用程序时都会遇到这个错误,尽管它编译得很好:当前文件: /home/marco/Desktop/tools.c
函数
: PTC3D行: 330这个文件是编译
的
:-ta=tesla:cc35,cc50,cc60,cc70,cc70,cc75,cc80CC = nvc CFLAGS = -c -a
浏览 3
提问于2020-10-02
得票数 1
回答已采纳
1
回答
CUDA
统一
内存
可以用作固定
内存
(
统一
虚拟
内存
)吗?
、
、
如我所知,我们可以在内核
内存
中
分配
固定
内存
区域。(来自)但是问题是linux内核数据应该被安排为数组。但是,当节点访问下一个节点时,会发生
内存
访问错误。 我想知道
统一
内存
是否可以在内核
内存
中作为固定
内存
区域
分配
?因此,树可以在
统一
内存<
浏览 3
提问于2016-03-21
得票数 3
2
回答
CUDA
共享
内存
地址空间与全局
内存
、
、
、
为了避免长时间和无凝聚力
的
函数
,我从内核中调用了许多设备
函数
。我在内核调用开始时(即每个线程块)
分配
一个共享缓冲区,并将指向它
的
指针传递给正在内核中执行某些处理步骤
的
所有设备
函数
。我想知道以下几点: 如果我在全局
函数
中
分配
共享
内存
缓冲区,那么我传递给指针
的
其他设备
函数
如何区分指针可能引用
的
地址类型(全局设备或共享mem)。注意,按照'
CUDA</
浏览 11
提问于2012-06-07
得票数 3
1
回答
统一
内存
和std::向量在设备代码中
的
使用
早在那时,
CUDA
设备代码中就不允许使用std::vector。对于当前具有
统一
内存
的
Cuda
10.2工具包来说,这仍然是正确
的
吗?我在一个类中有几个std::vector类型
的
公共数据成员,它们被传递给一个设备内核使用
的
引用。 nvcc抱怨从全局
函数
(“.”)调用主机
函数
(“std::vector..nvc.”)。不允许。什么是正确
的
方式使用
统一
内存
,如果可能的
浏览 0
提问于2020-06-04
得票数 2
1
回答
在__device__
函数
中
分配
内存
、
、
在
CUDA
中是否有一种在设备端功能中动态
分配
内存
的
方法?我找不到任何这样做
的
例子。
CUDA
内核中
的
malloc()
函数
从设备堆中
分配
至少大小
的
字节,并返回一个指向
分配
内存
的
指针,如果
内存
不足则返回NULL来满足请求。返回
的
指针保证与16字节
的
边界对齐.
CUDA
内核中
的
free
浏览 4
提问于2011-01-17
得票数 14
1
回答
CUDA
设备指针
、
关于标准
CUDA
内存
分配
模型
的
快速提问:cudaMalloc(&x_device,myArraySize);附带
的
问题是,编译器不会抱怨我没有使用(void**)&x_d
浏览 1
提问于2015-03-23
得票数 6
回答已采纳
1
回答
CODA6.0 cudaMallocManaged错误
我下载了
CUDA
6.0 RC,并编写了一个简单
的
程序来测试
统一
内存
。但是当我运行到cudaErrorNotSupported
函数
时,我得到了一个cudaMallocManaged错误。我
的
GPU是GeForce GT 620,有什么问题吗?
浏览 0
提问于2014-03-17
得票数 3
回答已采纳
1
回答
多GPU上
的
cudaMallocHost / cudaHostAlloc
在
CUDA
文档中,特别是在有关cudaSetDevice
的
设备管理部分
的
CUDA
运行时API中,它是这样编写
的
因此,我
的
问题是:如果我使用cudaHostAlloc与当前设备
分配
主机
内存
是dev 0,然后将该主机
内存</em
浏览 7
提问于2013-02-07
得票数 4
回答已采纳
1
回答
读取已
分配
的
内存
/向量推力
、
、
我使用Mathematica将一个简单
的
变量加载到GPU
内存
中:并得到以下结果:现在,有了GPU
内存
中
的
这些数据,我想使用推力从一个单独
的
.cu程序(在Mathematica之外)访问它。如果是这样的话,有人能解释一下是怎么做到
的
吗?
浏览 7
提问于2012-11-14
得票数 4
回答已采纳
1
回答
统一
内存
与固定主机
内存
的
行为与性能
、
、
、
、
我认为这个程序
的
主题,与问题无关;但我必须提到,我
的
教授在我
的
程序中看到我试图创建
CUDA
智能指针类后,建议我使用
统一
的
内存
。最好将这个类描述为“指向数组
的
唯一指针”,这满足了RAII
的
成语。在检查了
CUDA
6.0发布
的
统一
内存
(以及在
CUDA
8.0中引入
的
更新)之后,我对是否应该切换到
统一
内存</
浏览 0
提问于2017-04-15
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
内存的分配策略
如何大幅优化NGUI的堆内存分配
Python 内存分配时的小秘密
DIY编程实现自己的内存分配器
弹性内存分配在IOT中的重要性
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券