在本地内存中进行布局以减少存储体冲突的最佳方法是什么?
我在想:
RRRRRRRRRRRR...
GGGGGGGGGGGG...
BBBBBBBBBBBB...
AAAAAAAAAAAA...
我想一次获取所有四个通道,以便在向量操作中使用。
谢谢!
发布于 2014-08-05 17:32:59
然后使用"RGBARGBARGBARGBA...“您可以一次获取所有四个通道,以便在向量中使用。另外,它是一次读取,而不是4次。
当多个工作项访问彼此之间存在一定偏移量的不同区域时,会导致库冲突。因此,当涉及到引起银行冲突时,你的图像布局并不像你的行距那么重要。
发布于 2014-10-22 20:01:36
在我的目标架构HD7700上,平面配置提供了最好的性能: vload4慢得多。我认为这一定是由于银行冲突,但我不确定。
https://stackoverflow.com/questions/25144751
复制相似问题