前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >cuda by example

cuda by example

作者头像
用户1154259
发布2018-01-17 18:01:28
8960
发布2018-01-17 18:01:28
举报
代码语言:javascript
复制
int offset= x+y*dim

x 线程块内的线程索引

y 线程块索引

dim 线程块的维度

代码语言:javascript
复制
tid = threadIdx.x+blockIdx.x*blockDim.x

计算大于或等于128的最小倍数(127+x)/128

代码语言:javascript
复制
 kernel<<<(x+127)/128,128>>>(a,b,c)

规约求和

代码语言:javascript
复制
int i= blockDim.x/2;
while(i != 0){
    if(cacheIndex < i)
        cache[cacheIndex] += cache[cacheIndex + i];
    __synthreads();
    i /= 2;
}
代码语言:javascript
复制
const int N = 33*1024
const int threadsperblock = 256;
const int blockpergrid = imin(32,(N+threadperblock-1)/threadsperblock);
 
kernel<<<blockpergrid,threadsperblock>>>(a,b,c);
 
__global__ static void kenel(int *a,int *b,int *c){
    ...
    int tid = threadIdx.x+blockIdx.x*blockDim.x;
    ...
    while(tid<N){
        ...
        tid += blockDim.x*gridDim.x;
        ...
    }
}
代码语言:javascript
复制
if(threadIdx.x % 2){
    ...
    __synthreads();
}

这会造成 线程发散

    当某些线程需要执行一条指令,而其他线程不需要执行时,这种情况成为线程发散。

__synthreads会当所有的线程都执行后才释放,而有些线程如果不执行,那么kernel函数会无止境的等待。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2013-09-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档