, 在某个级别上的该指令的一个级别上是有时间错误的,然后编译器在对特定的该计算能力的卡, 生成特定级别的该暂停指令的时候,进行了patch操作....不仅仅硬件对该threadfence系列函数(所对应的指令)具有一定的操作,编译器在遇到该3个函数的时候, 除了正常生成3种对应的指令外, 还有引起一些行为上的变化:这就是之前的文字说过的, 引起一些优化行为上的变化...(变成刚才写入的值),则SM 9如果依然普通的访存读取, 可能会直接因为之前在SM 9的L1 cache中有过旧的内容, 立刻得到了....但做为这里的范例还是足够的.用户如果想看全文版本, 网上有很多. 来自NV的, 来自不同作者的.到时候可以参考一下....这里我先说一下重要的点:普通访存和原子操作混合.首先之前我们说过, 这是一个单步的规约求和kernel.