如何在OpenCV固定内存上分配CUDA /Image？

文章/答案/技术大牛

发布

1回答

、

所以我使用OpenCV cv::Mat来读/写文件。但由于它们使用普通内存进行分配，因此将数据传输到GPU的速度很慢。有没有办法让OpenCV默认使用固定内存(cudaMallocHost或cudaHostAlloc)？内存大小消耗不是问题。

浏览 27提问于2020-06-03得票数 1

1回答

cublas可以进行固定的内存分配吗？

、

我知道"cudaHostAlloc“分配的固定内存可以比”malloc“分配的内存更有效地转移到设备上。然而，我认为"cudaHostAlloc”只能由cuda编译器编译。我的方案是使用cublas API而不使用cuda编译器，而且似乎cublas不提供手册中的固定内存分配功能，或者我可能遗漏了什么……

浏览 0提问于2012-11-02得票数 0

回答已采纳

1回答

相当于OpenCL CL_MEM_USE_HOST_PTR的CUDA

、、

问题是CUDA分配内存，我没有办法将其转移到某些预先分配的CPU内存区域。对于OpenCL来说，使用clCreateBuffer的指定标志是正常的。

浏览 11提问于2022-02-04得票数 0

2回答

我昨天花了一整天的时间阅读如何在CUDA程序中使用托管(统一)内存阵列(使用这本书，我练习了一些示例代码(尽管我仍然对分析器信息有疑问)，我已经准备好将它应用于同时使用CUDA内核和一些OpenCV函数的程序我有过h_image = cv::imread(dirname+image_filenames[ni], cv::IMREAD_GRAYSCALE); cv::cuda::GpuMat d_<

浏览 0提问于2021-06-18得票数 0

1回答

cudaHostAllocMapped是否也在设备上分配缓冲区？

、、、

for cudaHostAlloc()表示，它使用cudaHostAllocMapped标志在主机上分配固定内存，并“将分配映射到CUDA地址空间”。这是否意味着在设备上也分配了镜像缓冲区？或者，在每次访问cudaHostGetDevicePointer()返回的指针时，设备是否与主机内存通信？这个问题不同于，因为我不问API是什么，什么时候使用它们，什么是固定内存。我特别询问是否在GPU上<em

浏览 9提问于2016-09-27得票数 1

回答已采纳

1回答

映射内存和gpu::CudaMem使用

、、

我想知道是否有可能避免gpu和设备之间的内存传输。我最近读到，映射内存就是为了这个目的，如果我错了，请纠正我。可以像那样节省上传时间吗？谢谢!

浏览 2提问于2014-02-10得票数 1

2回答

卡达和钉(页锁定)内存，根本不锁定页面？

、、、

我试图弄清楚当我需要固定(页面锁定)内存时，CUDA (或OpenCL实现)是否说出了真相。我使用mlock来分页锁定内存，其值如预期的那样上升。因此，造成这种行为的两个可能原因可能是： CUDA绕过操作系统计数器来锁定页面内存，因为CUDA对linux内核有一些神奇的作用因此，实际的问题是:当我使用CUDA分配</

浏览 1提问于2014-11-12得票数 8

回答已采纳

1回答

关于数据自动化系统中的固定记忆，有上限吗？

、、、

我编写了一个应用程序，它将从固定内存中受益，并且当有相当大的固定内存时，可以获得最好的性能。我们订购了一台由768 to内存组成的服务器，我计划将~500 to的内存作为固定内存分配，这有什么问题吗?因为我以前从未分配过这么多固定内存，到目前为止，在我们安装的内存要小得多的服务器上，我没有看到将大量内存分配为页

浏览 1提问于2014-03-10得票数 0

1回答

在计算能力5.0中，如何通过CPU和GPU同时访问托管内存？

、

由于在计算能力低于6.x的设备上同时访问托管内存是不可能的，是否有一种方法可以在GPU内核运行时通过CPU和GPU以计算能力5.0来模拟访问托管内存或使CPU访问托管内存。

浏览 0提问于2019-01-22得票数 0

回答已采纳

1回答

在opencv* 3中使用cuda：：形态学*

、

我在一个opencv项目中工作，该项目使用词素函数。现在我试着用gpu的支持来完成它。当我用OpenCV3.0和Cuda7.5支持编译我的程序时，它接受除morphologyEx以外的大多数函数(如cuda：：阈值、cuda::cvtcolor等)。请注意，在opencv 2.4.9中，吗啡被称为gpu::morphologyEx。如何在OpenCV 3.0或3.1中使用此函数？如果不支持它，是否有替代此功能的方法？实际上<

浏览 2提问于2016-02-10得票数 2

回答已采纳

1回答

是否有可能改变.NET数组分配方法？

、、、

我在.NET中通过P/Invoke使用CUDA。在CUDA中，它们提供了一种特殊的内存分配方法，它可以在GPU上分配内存，同时可以从主机(当然，从.NET的角度访问非托管内存)访问它们。这被称为CUDA的统一内存，它模糊了CPU和GPU内存之间的板。那么，是否可以将默认的.NET数组内存分配方法更改为自定义的非托管内存分配</

浏览 1提问于2015-09-14得票数 1

回答已采纳

1回答

GPU对CPU端到端延迟的动态图像调整

、、、、

目前，我已经使用OpenCV和ImageMagick进行了一些吞吐量基准测试，而且我发现与GPU的工作速度并不比CPU快得多。我们在站点上的使用是根据服务调用动态地调整大小到从主副本请求的大小，并试图评估拥有GPU是否有意义动态地调整每个服务调用的大小。 cuda::GpuMat d_dst; cuda::resize(d_src, d_dst, Size(400, 400),0,0, CV_INTER_AREA,stream4.57

浏览 0提问于2018-02-22得票数 1

1回答

不允许从host host device函子调用device函数

、、

我试图在Opencv类中使用推力。最后的代码将更加复杂，包括使用设备内存，但这个简单的示例无法成功构建。>#include <opencv2/core.hpp> #include <opencv2KeyPoint *new_data_end = thrust::remove_if(h_da

浏览 1提问于2021-06-14得票数 0

回答已采纳

1回答

是否所有使用相同设备的主机线程都可以看到分页锁定状态？

每个线程都使用自己的流，并且(我相信)隐式地选择默认的Cuda设备。页只能显示在单个CPU线程上。也就是说，如果任何线程将它们作为固定内存分配，则它们将保持页面锁定，但它们只会出现在分配它们的线程上的页面锁定。他们接着说，设置cudaHostAllocPortable可以解决这个问题，并允许所有线程将分配识别为固定缓冲区。“Cuda C指南”似乎与此信息相冲突

浏览 10提问于2016-09-15得票数 0

回答已采纳

1回答

两个进程可以共享相同的GPU内存吗？(库达)

、、、

在CPU世界中，人们可以通过内存映射来完成它。GPU也能做类似的事情吗？如果两个进程可以共享一个相同的CUDA上下文，我认为这将是微不足道的-只是传递GPU内存指针。我可以想到的另一种可能性是将设备内存映射到内存映射的主机内存。由于它是内存映射的，所以它可以在两个进程之间共享。这是否合理/可能，是否有任何开销？

浏览 10提问于2017-02-03得票数 14

回答已采纳

1回答

从Cuda设备指针创建OpenCV/EmguCV GpuMat

、、

我可以从非托管缓冲区在EmguCV中创建一个Mat对象，该缓冲区可以固定在托管内存中，也可以使用AllocHGlobal创建。如何使用设备指针或Cuda数组在设备上分配的内存来创建GpuMat或类似的对象。

浏览 36提问于2016-09-03得票数 1

1回答

cudaFree -无效的设备指针错误

、

我正在尝试释放我在CUDA + OpenGL互操作代码中分配的设备内存OpenGL。一切都很好，但我担心的是内存泄漏。为什么我不能释放我分配的本地设备内存？我将cuda_resource从像素缓冲区对象中取消映射，并取消资源注册。这就引出了另外两个问题：我在内核中没有malloced内存，因为我没有。因此，利用cudaFree函数应该(技术上？)在这里工作对吗？是由程序员来释放提供给本地定义的指针的内存，

浏览 4提问于2014-08-28得票数 4

回答已采纳

2回答

仅在分配的一部分上使用cudaHostRegister安全吗？

为了加速和简化传输，我想将CPU内存注册为不可分页(“固定”)，例如在复制之前使用cudaHostRegister(void*, size, ...)。它似乎有效，但我不明白，一般来说，“固定”分配的一部分是否会以某种方式破坏分配块。更新:我担心的是分配实际上是在中提到的 cudaHostRegisterDefault：在一个具有统一虚拟寻址的系统上，内存将被映射和移植。在没有统一虚拟寻址的系统上，内存</

浏览 17提问于2021-10-08得票数 3

回答已采纳

2回答

随着维数的增加，为点云分配CUDA设备内存

、、、

我已经在CPU端C++上编写了一个工作代码。现在我需要用CUDA加快速度。我的想法是让一些块/线程(我猜每个像素一个线程)并行执行测试，如果测试结果是真的，让线程向云中添加一个点。我的麻烦来了：，如果我事先不知道要在云中插入的点的数量，如何在设备内存中为点云分配空间(使用cudaMalloc或类似的)？我是否必须分配一个固定数量的内存，然后每次点云达到极限时增加它？还是有一种“动态”分配内存的方法？

浏览 7提问于2016-04-22得票数 4

1回答

cuMemHostAlloc内存不足错误

、

我遇到了一个内存分配问题，我不太明白。我正在尝试分配相当大的GPU内存块(我猜这可能是内存碎片问题？)我非常简化的代码是：#include <cuda.h> { CUdevice dev = 0但是我有超过4 4GB的空闲内存。然后我也想分配图形处理器内存，如果我尝试用cuMemAlloc分配

浏览 4提问于2012-08-15得票数 1

点击加载更多