.而__device__分配的属于静态分配的, 在CUDA Runtime API初始化的时候, 会自动为这种变量/数组分配显存.不需要手工的cudaMalloc*()的过程.这种静态分配的global...但所有的纹理和表面读取出来的结果都是错误的,
表面写入的结果也是错误的....需要注意的是, NV的很多文档有这个问题, 一并说一下吧:
1)见到需要手工绑定, 解绑的都是指的reference;
2)见到不需要绑定(bindless)的, 指的是object;很多时候不直接出现...总之本章节都是CUDA 5时代的历史残留, 用户知道就好....shared__)和动态分配的(通过第三个>>参数),这两种均可以无障碍的在动态并行启动的kernel里使用.并不存在特别的问题.但需要注意的是, 用户不能跨kernel传递shared memory指针