问使用PyCUDA进行Python多处理
EN

Stack Overflow用户

提问于 2011-05-06 06:33:33

回答 2查看 14.7K关注 0票数 17

我有一个问题，我想要在多个CUDA设备上拆分，但我怀疑我当前的系统架构阻碍了我；

我设置的是一个GPU类，具有在GPU上执行操作的函数(奇怪的是)。这些操作的风格是

for iteration in range(maxval):
    result[iteration]=gpuinstance.gpufunction(arguments,iteration)

我曾设想N个设备会有N个gpuinstance，但我对多处理的了解还不够多，无法看到应用多处理的最简单方法，因此每个设备都是异步分配的，而且奇怪的是，我遇到的示例中很少有具体的示例给出处理后整理结果的具体演示。

有人能在这方面给我指点吗？

更新感谢您在多处理器领域的指导；如果CUDA不是明确的症结所在，我会将您标记为已回答。抱歉的。

在此实现之前，gpuinstance类使用import pycuda.autoinit启动了CUDA设备，但这似乎不起作用，只要每个(正确确定作用域的)线程遇到cuda命令，就会抛出invalid context错误。然后，我尝试在类的__init__构造函数中使用...

pycuda.driver.init()
self.mydev=pycuda.driver.Device(devid) #this is passed at instantiation of class
self.ctx=self.mydev.make_context()
self.ctx.push()

我在这里的假设是，在创建gpuinstance列表和线程使用它们之间保留上下文，因此每个设备都处于自己的上下文中。

(我还实现了一个析构函数来处理pop/detach清理)

问题是，只要线程试图接触CUDA，invalid context异常仍然会出现。

有什么想法吗？感谢你走到这一步。自动为人们在他们的答案中添加“banana”！

python

cuda

parallel-processing

multiprocessing

pycuda

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-05-06 15:57:13

我知道，你首先需要把你所有的香蕉都排在CUDA这一边，然后再考虑用Python无耻的代理来做这件事的最好方法。

CUDA多GPU模型在4.0之前非常简单-每个GPU都有自己的上下文，并且每个上下文必须由不同的主机线程建立。所以伪代码中的想法是：

应用程序启动后，进程使用该应用程序接口来确定可用GPU的数量(注意Linux)
Application中的计算模式会为每个GPU启动一个新的主机线程，并传递一个GPU id。每个线程隐式/显式地调用等效于传递它已被assigned
Profit!

的GPU的cuCtxCreate()

在Python中，这可能类似于：

import threading
from pycuda import driver

class gpuThread(threading.Thread):
    def __init__(self, gpuid):
        threading.Thread.__init__(self)
        self.ctx  = driver.Device(gpuid).make_context()
        self.device = self.ctx.get_device()

    def run(self):
        print "%s has device %s, api version %s"  \
             % (self.getName(), self.device.name(), self.ctx.get_api_version())
        # Profit!

    def join(self):
        self.ctx.detach()
        threading.Thread.join(self)

driver.init()
ngpus = driver.Device.count()
for i in range(ngpus):
    t = gpuThread(i)
    t.start()
    t.join()

这假设只建立上下文而不事先对设备进行任何检查是安全的。理想情况下，您应该检查计算模式以确保可以安全地尝试，然后在设备繁忙的情况下使用异常处理程序。但希望这能给出基本的想法。

票数 21

Stack Overflow用户

发布于 2011-05-06 07:12:02

您需要的是map内置函数的多线程实现。Here是一种实现。为了满足您的特定需求，只需稍加修改即可实现：

import threading

def cuda_map(args_list, gpu_instances):

    result = [None] * len(args_list)

    def task_wrapper(gpu_instance, task_indices):
        for i in task_indices:
            result[i] = gpu_instance.gpufunction(args_list[i])

    threads = [threading.Thread(
                    target=task_wrapper, 
                    args=(gpu_i, list(xrange(len(args_list)))[i::len(gpu_instances)])
              ) for i, gpu_i in enumerate(gpu_instances)]
    for t in threads:
        t.start()
    for t in threads:
        t.join()

    return result

它与上面的内容大同小异，最大的区别是您不需要花费时间等待每个gpufunction的完成。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5904872

复制

相似问题

问使用PyCUDA进行Python多处理
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PyCUDA进行Python多处理EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用PyCUDA进行Python多处理
EN