这次说一下基本的结构, 如果不了解, 还是没法开始CUDA编程的.
----
GPU架构
GPU处理单元
?...概念GPU
复制16个上述的处理单元, 得到一个GPU....但是带宽依旧是瓶颈, 虽然比CPU带宽高了一个数量级, 但是可以看到, GTX 980 Ti的带宽也就是多年前GTX 480的两倍左右.
----
GPU线程与存储
由于目前还没有完全依靠GPU运行得机器..., 一般来说, 都是异构的, CPU+GPU....这一点在GPU编程上是要特别注意的, 也就是Host与Device.
?
HOST-DEVICE
在CUDA架构下, 显示芯片执行时的最小单位是thread.