在NVIDIA的GPU中,内存(GPU的内存)被分为了全局内存(Global memory)、本地内存(Local memory)、共享内存(Shared memory)、寄存器内存(Register memory)、常量内存(Constant memory)、纹理内存(Texture memory)六大类。这六类内存都是分布在在RAM存储芯片或者GPU芯片上,他们物理上所在的位置,决定了他们的速度、大小以及访问规则。
如下图,整张显卡PCB电路板上的芯片主要可以分为三类:
1. GPU芯片,也是整张显卡的核心,负责执行计算任务。
2. DDR3存储芯片,其在显卡中相对与GPU的地位相当于电脑中内存条对于CPU,只是放在了显卡上专供GPU使用。
3. 时钟、电源等其他辅助功能的芯片。
显卡的内存可以分为GPU片内(On-Chip)存储体和位于DDR3存储芯片中的存储体。片内存储体的访问延迟(Latency)远低于片外存储体的访问延迟(Latency),当然片内存储体也有更快的传输速度。
全局内存(Global memory),位于片外存储体中。容量大、访问延迟高、传输速度较慢。在2.X计算力之后的GPU上,都会使用二级缓存(L2 cache)做缓冲,达到较快的传输速度,但这并不能减少访问的延迟(Latency)。
下面详细介绍下GM107中SMM的内部结构:
指令缓存(Instruction Cache)存放核函数中的的指令。
指令缓冲区(Instruction Buffer)Core访问它的速度比指令缓存更快,但是空间更小。
线程束调度器(Warp Scheduler)调度各个线程束执行、挂起等。
流处理器(Core 或 Stream Processor)
一级缓存(L1 Cache)、纹理内存(Texture),他们公用同一片cache区域,可以通过调用CUDA函数设置各自的所占比例。
共享内存(Shared Memory)
寄存器区(Register File)供各条线程在执行时存放临时变量的区域。
本地内存(Local memory),一般位于片内存储体中,在核函数编写不恰当的情况下会部分位于片外存储器中。当一个线程执行核函数时,核函数的变量、数组、结构体等都存放在本地内存(Local memory)中。此时存在两种情况:
《CUDA Programming Guide》
中重点提到:
共享内存(Shared memory)位于每个流处理器组中(SM)中,其访问速度仅次于寄存器,特点是一个线程块(Block)中的所有线程都可以访问。主要存放频繁修改的变量。
寄存器内存(Register memory)位于每个流处理器组中(SM)中,访问速度最快的存储体,用于存放线程执行时所需要的变量。
常量内存(Constant memory)位于每个流处理器(SM)中和片外的RAM存储器中。常量内存是只读的,不能在核函数执行的过程中被修改。但是可以在核函数执行前,通过重新传入数据进行修改。
纹理内存(Texture memory)位于每个流处理器(SM)中和片外的RAM存储器中。它与常量内存非常类似。但是他有两点不同:
第一句话比较难度,大致意思是在进行纹理贴图操作或几何表面访问的操作时,由于访问数据的方式不符合访问全局内存和常量内存的访问规律,导致访问速度下降,但是纹理内存可以解决这一问题。
推荐阅读: