在OCL上阅读此链接:
7.oclMat中的所有矩阵都在列中对齐(现在,step的对齐因子是32+字节)。意思是,m.cols * m.elemSize() <=m.step。
这里到底说了些什么?这是否意味着有额外的列插入以访问ROI像素之外?对齐系数到底是多少?
此外,我还想看看oclMat的细节。
发布于 2014-08-11 13:32:51
基本上,这意味着在每一行之后插入了一些“垃圾”字节,因此下一行的起始地址符合某种对齐方式。
例如,假设您有一个由16位整数组成的矩阵,它有12列宽(行数并不重要)。如果每行都在下一行之后直接跟随,则内存布局可能如下所示(假设元素从address 0x100000
开始):
0x100000 <elem 0,0> <elem 0,1> <elem 0,2> ... <elem 0,11>
0x100018 <elem 1,0> <elem 1,1> <elem 1,2> ... <elem 1,11>
...
这里,每一行12 (列数)x2(每列/每元素字节)= 24字节。但是,某些体系结构可能“不喜欢”这一点,因为每一行只保证以8个字节对齐,即SSE/AVX将不得不使用未对齐的访问,这些访问要慢得多。
但是,如果我们“插入”8个额外的“垃圾”字节,布局如下所示:
0x100000 <elem 0,0> <elem 0,1> ... <elem 0,11> <8 junk bytes>
0x100020 <elem 1,0> <elem 1,1> ... <elem 1,11> <8 junk bytes>
...
现在,每一行12 (列数)x2(每列字节)+8(垃圾字节)= 32字节。现在,每一行将对齐到32个字节,这意味着它符合对齐AVX访问的256位对齐要求,这可以大大加快代码的速度。
https://stackoverflow.com/questions/25240092
复制相似问题