本文备注/经验分享:
这章节主要说了如何优化Host和Device间的数据传输。...第二段则说了, 如果你有一大批传输, 每次传输都很小(例如1000个只有100KB的的小图像), 与其传输1000次小的,不如打包成一次大的传输(100MB的100KB的小图像打包),因为每次传输有基本的不能避免的开销...现在即使是笔记本中的集成显卡, 也有独立显存的.所以手册这里的说法是没有用的了. 它没有更新....总之本章节说, 能不传输就不传输, 例如对于可以改变数据处理代码的位置(从CPU到GPU); 或者不需要传输(集成或者TX2类的)就应当尽量不需要传输.然后还说了, 如果真的要传输, 尽量使用一次性大量传输...本章节还说了, 有的时候可以让kernel执行和数据传输在指令级overlap提高性能, 适合那些只读一次或者只写一次的数据(或者例如最终结果的回传, 可以直接集成在kernel中, 让kernel直接写内存