本实践手册上指出了, CPU, 例如一个8核心16线程的机器, 最多只能同时运行16个线程; 而一个80个SM的GPU, 则可能同时执行10万个线程, 这就是典型的线程组织上的差异....实际上, 在我们这些多年的提供GPU硬件设备和服务的岁月中, 的确看到不少写成CPU风格的GPU代码, 甚至一些客户的GPU代码还跑不过CPU, 这是值得深思的现象。...我们一个4通道的CPU机器, 上2133的内存, 峰值不过才2133 * 8 * 4 = 68256MB, 也就是68GB/s, 这还是大型台式设备, 但是我司目前在售的一个巴掌大小的嵌入式的GPU设备...然后知道了GPU在计算峰值, 线程组织, 显存上的重要差异后, 你还需要知道GPU和CPU的不同点在于, 它不能就地使用内存中的数据进行计算, 需要通过某种方式传输到自己的显存, 才能有效计算, 而这里..., 报告和文章的书写, 也是在团队内部交流本轮经验, 进行技能沉淀的一个好机会.“
无论每个人的分工如何, 无论你主要是做CPU上的工作, 我主要是做GPU上, 还是她主要做测试分析, 大家都将自己的一方面交流了出来了