如何使用CUDA IPC？

文章/答案/技术大牛

发布

1回答

进程间通信数据自动化系统

、、

到目前为止我遇到了什么： cudaIpcGetMemHandle，cudaIpcOpenMemHandle和cudaIpcCloseMemHandle 问题：如何使用上面的函数名来实现IPC？

浏览 4提问于2013-11-06得票数 2

1回答

我是CUDA的新手，正在学习如何在我的项目中使用CUDA IPC。关于CUDA示例here：程序如何知道shm->n进程的数量？

浏览 35提问于2020-06-24得票数 0

1回答

“无效设备序号”(cudaErrorInvalidDevice)返回cudaIpcOpenMemHandle

当我试图打开IPC内存句柄时，我会得到cudaErrorInvalidDevice，但我不知道为什么。我在CentOS 6.6上使用四种CentOS。handle_cuda_error(cudaSetDevice(device_id));在另一个过程中，我这样做： handle_<em

浏览 6提问于2015-08-19得票数 1

回答已采纳

1回答

PyCUDA mem_get_ipc_handle给出LogicError: cuIpcGetMemHandle失败:不支持操作

、、

_kwargs) h = drv.mem_get_ipc_handle(x_gpu.ptr)我在Windows 7 x64环境中使用Python3.7，CUDA 9.2。Windows中不支持CUDA IPCMemoryHandle吗

浏览 0提问于2018-09-01得票数 0

回答已采纳

1回答

从多个MPI进程调用cudaMemcpy最可靠的方法是什么？

、、、

我正在开发一个库，它使用CUDA和MPI为微分方程的求解做动态工作负载分配。我有许多节点，每个节点都有一个NVIDIA GPU。当然，每个节点也有多个进程。我已经读到，由于使用虚拟寻址，所以通过MPI共享指针值是禁忌的，但是由于所有GPU数据都驻留在一个内存空间中，而且由于gpu_input_buffer.u_buffer是一个设备指针，我认为这应该是好的正如已经指出的，CUDA API有用于此目的的IPC内存句柄，但我无法找到有关如何使用MPI共享此内存句柄的任何信息

浏览 4提问于2020-03-02得票数 0

回答已采纳

1回答

CUDA应用程序之间的同步

是否有办法使同一GPU上的两个不同的CUDA应用程序同步？我有两个不同的过程:原始过程和后处理。最初的进程是使用GPU。现在我们也要将后处理迁移到GPU。

浏览 3提问于2020-08-24得票数 1

回答已采纳

2回答

如何从码头容器连接到Nvidia MPS服务器？

、、

我想要重叠使用GPU的许多码头集装箱。Nvidia提供了这样一种实用工具:多进程服务( Multi )，这是文档化的。具体来说，它说：默认情况下，命名管道被放置在/tmp/nvidia-mps/中，因此我使用卷与容器共享该目录。但这还

浏览 4提问于2017-08-16得票数 2

回答已采纳

1回答

cudaIPC只能在进程之间使用吗？

、、

我遵循cuda示例来实现cudaIPC。在我有两台机器之前，每台机器都有8个GPU。假设我们有工作进程和服务器进程。在我的例子中，工作人员必须使用cudaIPC将数据发送到服务器。但是如果我仍然使用旧的逻辑，它会报告：Check failed: e == cudaSuccess || e == cudaErrorCudartUnloading CUDA: invalid device我想知道cudaIPC是否只能在进程之间使用？对于我的情况，我应该如何修改我的实现？

浏览 5提问于2021-03-01得票数 0

1回答

两个进程可以共享相同的GPU内存吗？(库达)

、、、

如果两个进程可以共享一个相同的CUDA上下文，我认为这将是微不足道的-只是传递GPU内存指针。是否有可能在两个进程之间共享相同的数据自动化系统上下文？

浏览 10提问于2017-02-03得票数 14

回答已采纳

1回答

我们可以在码头集装箱中更新CUDA 9.0版到10.0版吗？

、、、

码头映像是使用CUDA版本9.0创建的。我有Tesla T4 GPU和驱动程序版本470.129.06在我的亚马逊EC2实例。我想把CUDA的版本从9更新到10.0。是否可以在码头集装箱内更新cuda版本？如果是，我们如何更新？你能分享一些有用的链接吗？我正在运行的命令是： nvidia-docker run -it --rm -v /Path_

浏览 6提问于2022-06-09得票数 -1

回答已采纳

1回答

在FastAPI容器中运行稳定扩散不会释放GPU内存

、、、

知道如何强制释放记忆吗？ torch_dtype=torch.float16pipe = pipe.to('cudapayload.seed = random.randint(-999999999, 999999999) # Run inference

浏览 40提问于2022-10-17得票数 0

1回答

如何使用NVIDIA GeForce RTX 3090 GPU启动chenrocks/uniter？

、、

docker run --gpus '"'device=$CUDA_VISIBLE_DEVICES'"' --ipc=host --rm -it \ --mount src=$IMG_DIR,dst=/img,type=bind,readonly \

浏览 57提问于2022-10-16得票数 0

回答已采纳

1回答

将ipc://更改为tcp:// python (Windows)

、、、

我不想让python应用程序在windows上运行，我得到了一个ZMQError:协议不支持，这是因为在Windows上不支持ipc。从我所读到的情况来看，从ipc到tcp协议的更改应该像更改bind()中使用的字符串一样容易。master_addr = 'ipc://{0}/sailfish-master-{1}_{2}'.format(

浏览 6提问于2014-11-03得票数 5

回答已采纳

3回答

MVAPICH在MPI_Send上挂起，因为消息大于急切阈值

、、

当我使用MPI_Send，MPI_Ssend，MPI_Rsend时，如果数据的大小超过了急切的阈值(在我的程序中是64k)，那么在调用MPI_Send期间，我的程序就挂起了。: 1 MV2_CUDA_ENABLE_IPC_CACHE : 0 MV2_CUDA</em

浏览 5提问于2014-12-11得票数 4

1回答

为什么这个内核不能在GK210上实现峰值IPC？

我决定尝试编写一个达到峰值IPC的CUDA内核，这对我是有教育意义的，所以我想出了这个内核(为了简洁起见，主机代码省略了，但是可用的)。，但最终却得到了一个糟糕的IPC 0.186。ubuntu@ip-172-31-60-181:~/ipc_example$ nvcc saxpy.cu ubuntu@ip-172-31-60-181:~/ipc_example$ sudo nvprof--metrics achieved_occupancy --metrics ipc

浏览 1提问于2021-08-10得票数 0

回答已采纳

1回答

码头货柜在离开时消失

、

容器是使用以下命令创建的 --mount srcbind,readonly \ -e NVIDIA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES

浏览 10提问于2021-12-26得票数 -2

回答已采纳

1回答

Java到C++进程间通信

、、、、

我的应用程序由在同一台机器上运行的两个组件组成，2) C++模块，它使用OpenCV和CUDA进行重计算步骤2:对Java中calc()的连续调用调用C++模块中的calc()方法，该方法使用传递的参数进行一些处理，使用GPU内存上的数据并将结果发送到C++层。我的问题是如何以较低的开销在Java和C++进程之间实现这个IPC？一个明显的方法是使用TCP套接字(可能<em

浏览 0提问于2018-09-25得票数 2

回答已采纳

3回答

为什么PyTorch找不到我的NVDIA驱动程序来支持数据自动化系统？

、、

我在机器中添加了一个GeForce GTX1080Ti(运行Ubuntu18.04和使用Python3.7运行Anaconda )，以便在使用PyTorch时使用GPU。由于这也是Ubuntu存储库中的版本，我简单地安装了CUDA工具包，其中包括：再说一次，这似乎没问题： $ nvccsg.archive.ubuntu.com/ubuntu bionic/multiverse amd64 Pac

浏览 5提问于2019-01-19得票数 13

1回答

试图理解nvprof度量、sm_efficiency和warp_execution_efficiency零

我是CUDA的新手，因此我试图了解哪些指标对性能很重要。它运行在Tegra X1上，平均为47 at，每块有1584个块和1024个线程。0.11% 0.11%ipcExecuted IPC 3.600738 3.600738 3.600738 为什么Warp Execut

浏览 3提问于2016-10-18得票数 4

回答已采纳

1回答

随着时间的推移，如何使用CUPTI分析内核？

、

随着时间的推移，我将在CUDA示例SDK中的一些基准内核(例如matrixMul和dxtc和.)的CUPTI分析器的帮助下进行分析。但是CUPTI普罗夫勒返回的值为零。是因为内核很小吗？因为当我使用更大的内核时，它会返回一些非零值，比如说IPC。我将两个样本之间的时间间隔设置为70毫秒。问题是，随着时间的推移，是否可以使用CUPTI对一个中小型内核进行剖析？如果是的话。多么?

浏览 8提问于2021-12-18得票数 0

点击加载更多

进程间通信数据自动化系统