首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我们所说的oclMat对齐实际上是什么意思?

我们所说的oclMat对齐实际上是什么意思?
EN

Stack Overflow用户
提问于 2014-08-11 09:33:27
回答 1查看 52关注 0票数 0

OCL上阅读此链接:

7.oclMat中的所有矩阵都在列中对齐(现在,step的对齐因子是32+字节)。意思是,m.cols * m.elemSize() <=m.step。

这里到底说了些什么?这是否意味着有额外的列插入以访问ROI像素之外?对齐系数到底是多少?

此外,我还想看看oclMat的细节。

EN

回答 1

Stack Overflow用户

发布于 2014-08-11 13:32:51

基本上,这意味着在每一行之后插入了一些“垃圾”字节,因此下一行的起始地址符合某种对齐方式。

例如,假设您有一个由16位整数组成的矩阵,它有12列宽(行数并不重要)。如果每行都在下一行之后直接跟随,则内存布局可能如下所示(假设元素从address 0x100000开始):

代码语言:javascript
运行
复制
0x100000 <elem 0,0> <elem 0,1> <elem 0,2> ... <elem 0,11>
0x100018 <elem 1,0> <elem 1,1> <elem 1,2> ... <elem 1,11>
...

这里,每一行12 (列数)x2(每列/每元素字节)= 24字节。但是,某些体系结构可能“不喜欢”这一点,因为每一行只保证以8个字节对齐,即SSE/AVX将不得不使用未对齐的访问,这些访问要慢得多。

但是,如果我们“插入”8个额外的“垃圾”字节,布局如下所示:

代码语言:javascript
运行
复制
0x100000 <elem 0,0> <elem 0,1> ... <elem 0,11> <8 junk bytes>
0x100020 <elem 1,0> <elem 1,1> ... <elem 1,11> <8 junk bytes>
...

现在,每一行12 (列数)x2(每列字节)+8(垃圾字节)= 32字节。现在,每一行将对齐到32个字节,这意味着它符合对齐AVX访问的256位对齐要求,这可以大大加快代码的速度。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25240092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档