一般来说,应用程序不会在任何时间点访问任意数据或运行任意代码。程序获取资源是有规律的,也就是计算机体系结构经常提到的局部原则:时间局部性和空间局部性。
分级存储器体系
以下两张图是GPU在硬件层次与软件层次上对应的存储模型:
内存模型的硬件结构
内存模型的软件结构
const restrict*
__syncthreads()
同步用来限定变量存储什么位置上。
__device__
表明声明的数据存放在显存中,所有的线程都可以访问,而且主机也可以通过运行时库访问。__shared__
表示数据存放在共享存储器中,只有所在的 块内的线程可以访问,其它块内的线程不能访问。__constant__
表明数据存放在常量存储器中,可以被所 有的线程访问,也可以被主机通过运行时库访问。texture
表明被其绑定的数据可以被纹理缓存加速读取。变量存储结构总结
CUDA编程指南5.0 [【CUDA】学习记录(7)- Global Memory] https://www.jianshu.com/p/3d4c9cc3a777