我有一个问题,我想要在多个CUDA设备上拆分,但我怀疑我当前的系统架构阻碍了我;
我设置的是一个GPU类,具有在GPU上执行操作的函数(奇怪的是)。这些操作的风格是
for iteration in range(maxval):
result[iteration]=gpuinstance.gpufunction(arguments,iteration)
我曾设想N个设备会有N个gpuinstance,但我对多处理的了解还不够多,无法看到应用多处理的最简单方法,因此每个设备都是异步分配的,而且奇怪的是,我遇到的示例中很少有具体的示例给出处理后整理结果的具体演示。
有人能在这方面给我指点吗?
更新感谢您在多处理器领域的指导;如果CUDA不是明确的症结所在,我会将您标记为已回答。抱歉的。
在此实现之前,gpuinstance类使用import pycuda.autoinit
启动了CUDA设备,但这似乎不起作用,只要每个(正确确定作用域的)线程遇到cuda命令,就会抛出invalid context
错误。然后,我尝试在类的__init__
构造函数中使用...
pycuda.driver.init()
self.mydev=pycuda.driver.Device(devid) #this is passed at instantiation of class
self.ctx=self.mydev.make_context()
self.ctx.push()
我在这里的假设是,在创建gpuinstance列表和线程使用它们之间保留上下文,因此每个设备都处于自己的上下文中。
(我还实现了一个析构函数来处理pop/detach
清理)
问题是,只要线程试图接触CUDA,invalid context
异常仍然会出现。
有什么想法吗?感谢你走到这一步。自动为人们在他们的答案中添加“banana”!
发布于 2011-05-06 15:57:13
我知道,你首先需要把你所有的香蕉都排在CUDA这一边,然后再考虑用Python无耻的代理来做这件事的最好方法。
CUDA多GPU模型在4.0之前非常简单-每个GPU都有自己的上下文,并且每个上下文必须由不同的主机线程建立。所以伪代码中的想法是:
的GPU的cuCtxCreate()
在Python中,这可能类似于:
import threading
from pycuda import driver
class gpuThread(threading.Thread):
def __init__(self, gpuid):
threading.Thread.__init__(self)
self.ctx = driver.Device(gpuid).make_context()
self.device = self.ctx.get_device()
def run(self):
print "%s has device %s, api version %s" \
% (self.getName(), self.device.name(), self.ctx.get_api_version())
# Profit!
def join(self):
self.ctx.detach()
threading.Thread.join(self)
driver.init()
ngpus = driver.Device.count()
for i in range(ngpus):
t = gpuThread(i)
t.start()
t.join()
这假设只建立上下文而不事先对设备进行任何检查是安全的。理想情况下,您应该检查计算模式以确保可以安全地尝试,然后在设备繁忙的情况下使用异常处理程序。但希望这能给出基本的想法。
发布于 2011-05-06 07:12:02
您需要的是map
内置函数的多线程实现。Here是一种实现。为了满足您的特定需求,只需稍加修改即可实现:
import threading
def cuda_map(args_list, gpu_instances):
result = [None] * len(args_list)
def task_wrapper(gpu_instance, task_indices):
for i in task_indices:
result[i] = gpu_instance.gpufunction(args_list[i])
threads = [threading.Thread(
target=task_wrapper,
args=(gpu_i, list(xrange(len(args_list)))[i::len(gpu_instances)])
) for i, gpu_i in enumerate(gpu_instances)]
for t in threads:
t.start()
for t in threads:
t.join()
return result
它与上面的内容大同小异,最大的区别是您不需要花费时间等待每个gpufunction
的完成。
https://stackoverflow.com/questions/5904872
复制相似问题