如何将统一内存应用于现有的对齐主机内存

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在集成的软件是伪实时的，所以它有一个内存管理程序库，可以从预先分配的单个大内存分配中手动传递指针。CUDA的统一内存对我们很有吸引力，因为从理论上讲，我们可以将这个大的内存块更改为统一内存，让现有的CPU代码仍然有效，并允许我们添加GPU内核，只需对现有的数据I/O流进行很小的更改。我们现有的CPU处理代码的一部分需要内存与特定的对齐方式进行对齐。c

浏览 24提问于2019-05-01得票数 1

回答已采纳

1回答

CUDA Fermi的架构:内存结构

、、、

我有一个关于CUDA Fermi's architecture的问题:我在某个地方读到过，在Fermi's architecture中，全局内存的访问速度与共享内存一样快，因为它们现在使用统一寻址。因此，我真的可以访问全局内存上的数据而不会有(大)延迟(不像“预费米”GPU)？

浏览 3提问于2012-08-12得票数 0

1回答

在OpenCL中分配内存，用于创建主机指针，但直到需要时才将其写入设备

、、

它是在设备上创建缓冲区并为主机分配内存，还是只在主机上分配内存并在设备上使用时将其缓存？我的问题是:如果我有相当多的对象，它们的float*字段的总空间超过了设备上的可用空间，那么有没有比告诉运行时将主机指针复制(或使用)到OpenCL设备的更好的方法？有没有可能让运行时创建主机指针，并将其用于所有的浮点数*，即使它们的总内存超过了设备的总内存？我不介意告诉它使用主机指针，但是如果我想在运行时在CPU上时避免

浏览 0提问于2013-06-12得票数 2

回答已采纳

1回答

CL_DEVICE_HOST_UNIFIED_MEMORY是否改变缓冲区的处理方式？

、

当设备是具有自己内存的显卡时，这是有意义的，但是当设备与主机共享内存时会发生什么呢？例如，我的M1 Pro中的MacBook芯片具有统一的内存结构，设备显示host_unified_memory为1。如果设备和主机有统一的内存子系统，则为，否则为CL_FALSE。这是否意味着我可以更改代码以避免在统一内存系统上复制缓冲区？或者OpenCL是否检测到内存是统一的，从而使排队的副本成

浏览 1提问于2021-03-03得票数 0

1回答

用cudaMallocManaged非常快地耗尽内存

、

问题是，如果我创建了其中的三个，就没有问题，但是如果我创建了四个，CUDA会给出一个“内存不足”的错误。注意，有410行代码，内存保留了函数cudaMallocManaged(.)在线: 90 (函数主)和164,176和190 (函数auxCrearIndiceAVL)。

浏览 4提问于2015-01-26得票数 2

回答已采纳

1回答

关于Vulkan最小缓冲对齐的问题

当我为统一缓冲区分配和绑定内存时，我确保它与填充缓冲区的任何结构所需的对齐对齐。uniform my_uniform UniformValues[100];该设备的"minUniformBufferOffsetAlignment“是否意味着，如果它是16，我需要将该统一结构的大小设置为如果我想这样做的话：那就不是一个16字节对齐的地址了。如果是这样的话，我如何

浏览 3提问于2022-03-20得票数 0

1回答

关于CUDA的架构(SM，SP)

、、、、

(Runtime )版本(CUDART静态链接)检测到1个CUDA设备0："GeForce GTS 240CUDA主要/次要版本号: 1.1(14)多处理器，( 8) CUDA核心/MP:112个CUDA核心内存时钟速率:=(8192)，512层常量<

浏览 0提问于2013-10-17得票数 5

3回答

在VirtualBox+Windows 7 (64位)下运行Ubuntu11.04 (64位)时没有统一

、、、、

在将Ubuntu11.04 (64位)干净地安装到运行在Windows7 (64位)下的VirtualBox中的新虚拟机后，出现了第一个登录屏幕，这时弹出了一个对话框，表示硬件不足以运行统一(已解释)。所有的登录都带我去了经典DE，我甚至找不到一种尝试统一的方法。安装VirtualBox客户添加之后，经典DE将随着主机</em

浏览 0提问于2011-05-05得票数 3

1回答

cudaMallocManaged与cudaMalloc -设备内存限制场景

、、、

我了解到，cudaMallocManaged通过消除主机和设备上显式内存分配的需要，简化了内存访问。假设主机内存比设备内存大得多，比如16 GB主机&2GB设备，这在当今相当常见。我是否被迫求助于显式主机和设备内存分配(因为设备内存不足以同时容纳)，还是CUDA统一内存模型有办法解决这个问题(比如，根据需要自动分配/分配)？

浏览 1提问于2014-12-21得票数 9

回答已采纳

1回答

全局内存详细信息

当我查找我的Nvida卡的时，它列出了2 2GB的“内存”。我开始相信这是这张卡的“全局”内存。也就是说，这是驻留在“芯片外”但在卡上的GDDR3内存。这是正确的吗？我没有看到任何情况下规范的‘内存’是零。真的存在吗？也就是说，我可以有一个有/没有芯片外存储器的卡吗？因为我所有的纹理、本地和常量内存实际上都驻留在固定和映射的主机内存中。我可以通过固定超过2 2GB的主机内存来扩展我的全局内存</em

浏览 0提问于2012-11-08得票数 0

回答已采纳

1回答

相当于cuda中的memalign

、、

我正在尝试使用CUDA并行化一个C函数。我注意到有几个结构被作为指针传递给这个函数。使用，我已经将malloc()标识并修改为cudaMallocManaged()。这样的等价物是否存在？如果没有，那么需要做些什么呢？float *data = (float*) memalign(16, some_integer*sizeof(float));

浏览 0提问于2015-08-13得票数 0

2回答

MongoDB日志机制:私有视图的目的是什么？

、、

我刚刚看到了视频，它描述了MongoDB如何处理内存中的数据以及如何将其保存到磁盘。我还阅读了关于MongoDB日志的这些文章：然后将共享视图重新映射到虚拟内存的另一部分，称为私有视图。逻辑上(不是物理上的)，看起来所有的数

浏览 7提问于2015-10-25得票数 1

回答已采纳

1回答

读取已分配的内存/向量推力

、、

我使用Mathematica将一个简单的变量加载到GPU内存中：并得到以下结果：现在，有了GPU内存中的这些数据，我想使用推力从一个单独的.cu程序(在Mathematica之外)访问它。

浏览 7提问于2012-11-14得票数 4

回答已采纳

1回答

什么会导致XenServer 7.2Windows2019VM不将驱动程序锁定内存释放回操作系统？

、、

虽然看起来是随机的，但我们看到VM上升到了惊人的32 OS的使用内存，用户缓慢地爬到爬行，直到我们重新启动来宾操作系统。在运行RAMmap时，我可以看到几乎所有的内存都被卡在“驱动程序锁定”中，而且从未被释放。它只是爬升，直到用户抱怨速度慢，然后我们必须重新启动客户操作系统。📷 是什么原因导致驱动程序锁定内存不被释放并继续“泄漏”？同样，我们使用WindowsServer2019运行XenServer 7.2。所有Windows更新都已应用于来宾操作系统。我们在8个XenServer主机

浏览 0提问于2020-07-09得票数 2

回答已采纳

2回答

在向量中存储各种类型

、、、、

我正在尝试在数组或向量中存储各种不同类型的数据。到目前为止，我是通过使用一个基类来做到这一点的，这个基类将作为指向每个对象的指针存储在向量中，然后类型转换以获取数据。这对于int非常有效，但是任何其他类型的数据都会抛出访问冲突异常。//Base class{ std::string Name; MenuProperty(std::string Name) : Name(Name) {}; ~MenuProperty() {

浏览 1提问于2012-12-31得票数 0

回答已采纳

1回答

具有对thrust::minmax_element返回类型的CUDA device_ptr结果的内存管理

、、、

我在dPointsWS中的设备内存中有一个点云，其中的内存布局首先是x-，然后是所有的y-，最后是所有的z坐标。我用推力来计算这个点云的紧轴对齐包围盒(AABB)。我已经很清楚地下载了结果到主机内存在最后，但我想避免这种情况。我找到了以下文章：。例如，我希望使用OpenGL直接使用AABB绘图的结果，而不将它们下载到主机内存中。

浏览 0提问于2014-12-16得票数 0

回答已采纳

1回答

当使用易失性和同步时，内存刷新或发布到不同线程的范围是什么？

、、、

此问题仅涉及内存可见性，而不是发生在之前和之后。Java中有四种方法可以保证对一个线程中的内存进行更改，从而使另一个线程可见。(参考) 这是否意味着JVM实际上跟踪易失变量的读写，以便知道如何将内存从A刷新到B，而不是从A到C？或者，它是否意味着所有缓存的内存都会被刷新，而不管线程是什么？是只刷新易失性变量，还是全部缓存内存？对于synchronized关键字刷新，它说只有在锁中更新的内存才能

浏览 2提问于2013-06-11得票数 12

回答已采纳

1回答

在SYCL中声明半精度浮点内存

、、、、

另外，假设在主机端有一个现有的fp32矩阵/数组。如何将它的内容复制到GPU端的fp16内存中。提亚

浏览 4提问于2022-01-11得票数 0

回答已采纳

1回答

在卡夫卡，即使制片人得到承认，信息的丢失也会发生吗？

、

现代操作系统在使用主内存进行磁盘缓存方面变得越来越激进。当内存被回收时，现代操作系统将很高兴地将所有空闲内存转移到磁盘缓存，而性能损失很小。所有的磁盘读写都将通过这个统一的缓存。...rather比尽可能多地在内存中维护并将其全部释放到文件系统中的情况下，当我们耗尽空间时，我们会将其倒置。所有数据都会立即写入文件系统上的持久日志，而不一定会刷新到磁盘。“ (3)当所有同步副本都将消息应用于其日志时，消息将被“提交”；(4)只要同步副本中至少有一个同

浏览 1提问于2019-09-18得票数 7

回答已采纳

1回答

浮点数阵列对齐错误

、

我通过统一缓冲区来计算vulkan中的着色器。缓冲区包含一个由49个浮点数组成的数组(高斯矩阵)。如果是这样的话，我如何将数组复制到需要对齐的缓冲区？编辑:通过扩展缓冲区和数组，我设法以16的对齐方式传递它，但是它看起来像在浪费内存。我如何使浮标对齐4？

浏览 0提问于2019-10-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云