对于在两台不同机器上编译的相同CUDA内核,我得到的计算时间相差了3-4倍。这两个版本都运行在同一台机器和GPU设备上。解释这种差异的直接结论是不同的编译器设置。虽然没有一个完美的设置,而且调优应该根据内核进行自定义,但我想知道是否有任何明确的指导原则来帮助选择正确的设置。我使用的是Visual Studio 2010。谢谢。
发布于 2013-07-03 05:37:35
如果您希望获得最快的性能,请在发布模式下编译
-G
开关通常会对GPU代码产生负面影响,通常建议为您正在编译的GPU选择正确的体系结构。例如,如果您有cc2.1功能的GPU,请确保将设置( GPU代码设置中的sm_21)传递给编译器。有一些相反的例子(例如,为cc2.0编译似乎运行得更快,等等)。但作为一般建议,这是最好的。https://stackoverflow.com/questions/17436015
复制相似问题