也就是本章节说的__global__和__device__, 以及,不常用的__host__
你应当知道, CUDA C是对C的扩展, 这使得熟悉普通CPU上C开发的用户(例如, 来自VC的用户),...占据了90%+的CPU上的执行时间,此时就应当将此函数考虑是否能单独改写成CUDA C版本(从你的老C版本---Fortran用户请考虑CUDA Fortran)。..., 会将有这些特殊前缀的函数, 生成GPU代码,
而其他源文件中的剩余部分, 没有这两个前缀的函数, CUDA C编译器自动跳过, 调用你本机上的原来的CPU编译器, 继续编译剩下的部分。...所以这是为何你总是看到, CUDA C需要有一个配套的CPU编译器(Host Compiler手册中叫)的原因。...通过这种方式, 用户看来, 它只需要将源文件改成.cu扩展名, 将一些函数添加上__global__之类的扩展, 就自动能在GPU上执行了.不需要考虑如何将代码传递给GPU, 也不需要考虑如果通知GPU