发布于 2021-05-09 09:01:57
你不能这么做。
引用PTX指令集documentation
浮点运算
.add运算舍入到最接近的偶数。当前在全局内存上的atom.add.f32实现将不正常的输入和结果刷新为符号保持零;而共享内存上的atom.add.f32支持不正常的输入和结果,并且不将它们刷新为零。
atom.add.f16和atom.add.f16x2操作需要.noftz限定符;它保留不正常的输入和结果,并且不会将它们刷新为零。
另一种想法是:当前CUDA硬件中可用的有限原子浮点支持是由内存控制器中的ALU完成的,而不是由SMs中的浮点硬件完成的。后者实现了所有的舍入模式,而前者没有。
https://stackoverflow.com/questions/67450994
复制相似问题