一段代码搞懂 gpu memory

一段代码搞懂 gpu memory

GPU 的 memory 分为 三种,io速度从快到慢排序为:

  • local memory
  • shared memory
  • global memory

其中 shared memory 的io 速度是远快于 global memory 的。

这三种 memory 的访问性质是:

  • local memory: 线程私有,只能本线程访问
  • shared memory: 线程块(thread block) 共享, 同一个线程块中的线程可以访问。
  • global memory: 所有线程都可访问。

那么在编程的过程中,这三种 memory 是从什么地方体现出来的呢?

#include <stdio.h>

__global__ void memory_demo(float* array)
{
    // array 指针是在 local memory 上的,但是它指向的 memory 是 global memory
    // i, index 都是 local variable,每个 线程 私有。
    int i, index = threadIdx.x;

    // __shared__ variable 对 block 中的 线程可见
    // 并 和 thread block 有相同的 生命周期。
    __shared__ float sh_arr[128];

    // 将 global memory 的值 拷贝到 shared memory 上。
    sh_arr[index] = array[index];

    // barrier here
    __syncthreads();
    // 之后对 shared memory 的 IO 要快的多
    // do something
}

int main()
{
    float h_arr[128];
    float *d_arr;

    // cudaMalloc 分配的 memory 是在 global memory 上的。
    cudaMalloc((void **)&d_arr, sizeof(float)*128);
    cudaMemcpy((void*) d_arr, (void*) h_arr, sizeof(float)*128, cudaMemcpyHostToDevice);

    // 启动 kernel
    memory_demo<<<1, 128>>>(d_arr);

    // .. do other stuff
}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏zhisheng

【死磕Java并发】—–深入分析Synchronized的实现原理

记得刚刚开始学习Java的时候,一遇到多线程情况就是synchronized,相对于当时的我们来说synchronized是这么的神奇而又强大,那个时候我们赋予...

822
来自专栏Golang语言社区

linux 内核同步机制使用

Linux 内核中的同步机制:原子操作、信号量、读写信号量、自旋锁的API、大内核锁、读写锁、大读者锁、RCU和顺序锁。 1、介绍 在现代操作系统里,同一时间...

2584
来自专栏Golang语言社区

锁的优化和注意事项151

1. 锁优化的思路和方法 在[高并发Java 一] 前言中有提到并发的级别。 一旦用到锁,就说明这是阻塞式的,所以在并发度上一般来说都会比无锁的情况低一点。 这...

36911
来自专栏Java架构沉思录

Java中的锁原理、锁优化、CAS、AQS

Java编程语言允许线程访问共享变量, 为了确保共享变量能被准确和一致地更新,线程应该确保通过排他锁单独获得这个变量。Java语言提供了volatile,在某些...

602
来自专栏微信公众号:Java团长

Java中的锁原理、锁优化、CAS、AQS

结论:如果volatile变量修饰符使用恰当的话,它比synchronized的使用和执行成本更低,因为它不会引起线程上下文的切换和调度。

621
来自专栏程序猿DD

死磕Java并发:深入分析synchronized的实现原理

记得刚刚开始学习Java的时候,一遇到多线程情况就是synchronized。对于当时的我们来说,synchronized是如此的神奇且强大。我们赋予它一个名字...

1166
来自专栏互联网大杂烩

Java锁与并发

保护临界区资源不会被多个线程同时访问时而受到破坏。通过锁,可以让多个线程排队。一个一个地进入临界区访问目标对象,使目标对象的状态总是保持一致。

832
来自专栏我是攻城师

理解Java中锁的状态与优化

关于锁的知识,按大类来说,通常我们只分乐观锁和悲观锁。但在Java语言里对同步锁的状态又进行了细化通常有无锁状态,偏向锁,自旋锁,轻量级锁,重量级锁,这么做的目...

1324
来自专栏LuckQI

学习Java基础知识,打通面试关~十三锁机制

1125
来自专栏Java编程技术

JDK8中新增原子性操作类LongAdder

LongAdder类似于AtomicLong是原子性递增或者递减类,AtomicLong已经通过CAS提供了非阻塞的原子性操作,相比使用阻塞算法的同步器来说性能...

581

扫码关注云+社区