现在却多了一个尾巴(warp同步用的后缀),
以及, 还多了一个参数(第一个参数, 用来选择你需要那些warp内部的线程们(lanes)进行同步)....ffs()之类的函数,在进行某些数据结构上的插入之类的操作的时候, 快速判断warp整体需要多少个空间, 而每个具体的warp内部的线程又在什么位置上需要操作.这种非常方便.再例如说, 像是昨天的章节中...本章节还提供了一个__activemask, 这个是新增的,大致等效于以前的__ballot(1),实际上这是以前快速判断当前还有多少线程存活(warp内部), (例如在很多层的if或者while之类的嵌套里面...这里提到的__popc()操作(从1个32-bit值中确定1的个数),例如__popc配合__ballot_sync可以快速确定满足条件的线程的数量, 而不是mask(也叫掩码, 从每个1-bit代表1...CUDA C中(幸运的是, 导出到了PTX).需要的用户可以单独按照本手册的说法, 能够通过内嵌PTX的方式来使用它.此外, 还需要说明的是warp vote这些, 在竞争对手A家的卡中, 都是免费操作