首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >多GPU基本用法

多GPU基本用法
EN

Stack Overflow用户
提问于 2012-05-10 16:14:49
回答 1查看 21.2K关注 0票数 25

例如,我如何使用两个设备来提高以下代码的性能(向量之和)?是否有可能“同时”使用更多的设备?如果是,我如何在不同设备的全局内存上管理向量的分配?

代码语言:javascript
复制
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#include <time.h>
#include <cuda.h>

#define NB 32
#define NT 500
#define N NB*NT

__global__ void add( double *a, double *b, double *c);

//===========================================
__global__ void add( double *a, double *b, double *c){

    int tid = threadIdx.x + blockIdx.x * blockDim.x; 

    while(tid < N){
        c[tid] = a[tid] + b[tid];
        tid += blockDim.x * gridDim.x;
    }

}

//============================================
//BEGIN
//===========================================
int main( void ) {

    double *a, *b, *c;
    double *dev_a, *dev_b, *dev_c;

    // allocate the memory on the CPU
    a=(double *)malloc(N*sizeof(double));
    b=(double *)malloc(N*sizeof(double));
    c=(double *)malloc(N*sizeof(double));

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_a, N * sizeof(double) );
    cudaMalloc( (void**)&dev_b, N * sizeof(double) );
    cudaMalloc( (void**)&dev_c, N * sizeof(double) );

    // fill the arrays 'a' and 'b' on the CPU
    for (int i=0; i<N; i++) {
        a[i] = (double)i;
        b[i] = (double)i*2;
    }

    // copy the arrays 'a' and 'b' to the GPU
    cudaMemcpy( dev_a, a, N * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b, b, N * sizeof(double), cudaMemcpyHostToDevice);

    for(int i=0;i<10000;++i)
        add<<<NB,NT>>>( dev_a, dev_b, dev_c );

    // copy the array 'c' back from the GPU to the CPU
    cudaMemcpy( c, dev_c, N * sizeof(double), cudaMemcpyDeviceToHost);

    // display the results
    // for (int i=0; i<N; i++) {
    //      printf( "%g + %g = %g\n", a[i], b[i], c[i] );
    //  }
    printf("\nGPU done\n");

    // free the memory allocated on the GPU
    cudaFree( dev_a );
    cudaFree( dev_b );
    cudaFree( dev_c );
    // free the memory allocated on the CPU
    free( a );
    free( b );
    free( c );

    return 0;
}

提前谢谢你。米歇尔

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-05-10 17:43:22

自从CUDA 4.0发布以来,您所询问的类型的多GPU计算相对容易。在此之前,您需要使用多线程主机应用程序,每个GPU有一个主机线程和某种线程间通信系统,以便在同一主机应用程序中使用多个GPU。

现在,可以对主机代码的内存分配部分执行类似的操作:

代码语言:javascript
复制
double *dev_a[2], *dev_b[2], *dev_c[2];
const int Ns[2] = {N/2, N-(N/2)};

// allocate the memory on the GPUs
for(int dev=0; dev<2; dev++) {
    cudaSetDevice(dev);
    cudaMalloc( (void**)&dev_a[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_b[dev], Ns[dev] * sizeof(double) );
    cudaMalloc( (void**)&dev_c[dev], Ns[dev] * sizeof(double) );
}

(免责声明:在浏览器中编写,从未编译,从未测试,使用风险自负)。

这里的基本思想是,当您在设备上执行操作时,使用cudaSetDevice在设备之间进行选择。因此,在上面的代码片段中,我假设了两个GPU,并在第一个设备上为每个(N/2)个设备分配了内存,在第二个设备上分配了N-(N/2)个内存。

从主机到设备的数据传输可能非常简单,如下所示:

代码语言:javascript
复制
// copy the arrays 'a' and 'b' to the GPUs
for(int dev=0,pos=0; dev<2; pos+=Ns[dev], dev++) {
    cudaSetDevice(dev);
    cudaMemcpy( dev_a[dev], a+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
    cudaMemcpy( dev_b[dev], b+pos, Ns[dev] * sizeof(double), cudaMemcpyHostToDevice);
}

(免责声明:在浏览器中编写,从未编译,从未测试,使用风险自负)。

然后,代码的内核启动部分可能如下所示:

代码语言:javascript
复制
for(int i=0;i<10000;++i) {
    for(int dev=0; dev<2; dev++) {
        cudaSetDevice(dev);
        add<<<NB,NT>>>( dev_a[dev], dev_b[dev], dev_c[dev], Ns[dev] );
    }
}

(免责声明:在浏览器中编写,从未编译,从未测试,使用风险自负)。

请注意,我已经在内核调用中添加了一个额外的参数,因为内核的每个实例都可能使用不同数量的要处理的数组元素来调用。我将把所需的修改留给您来处理。但是,再说一次,基本思想是相同的:使用cudaSetDevice选择给定的图形处理器,然后以正常的方式在其上运行内核,每个内核都有自己独特的参数。

您应该能够将这些部分放在一起来生成一个简单的多GPU应用程序。在最近的CUDA版本和硬件中可以使用许多其他功能来帮助多个GPU应用程序(如统一寻址,点对点功能更多),但这应该足以让您入门。在CUDA SDK中还有一个简单的多GPU应用程序,你可以看看更多的想法。

票数 39
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10529972

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档