问是什么让苹果的PowerPC记忆如此之快？
EN

Stack Overflow用户

提问于 2018-05-25 01:56:04

回答 2查看 0关注 0票数 0

，它们的内环使用dcbt预取，有4个向量读取，然后4个向量写入。在调整了我的最佳函数，使其每次迭代也能获得64个字节后，memcpy的性能优势仍然令人尴尬。我用dcbz来释放带宽，苹果什么也不使用，但这两种代码在商店里都会犹豫。

prefetch
  dcbt future
  dcbt distant future
load stuff
  lvx image
  lvx image + 16
  lvx image + 32
  lvx image + 48
  image += 64
prepare to store
  dcbz filtered
  dcbz filtered + 32
store stuff
  stvxl filtered
  stvxl filtered + 16
  stvxl filtered + 32
  stvxl filtered + 48
  filtered += 64
repeat

有谁对为什么非常相似的代码有如此巨大的性能差距有一些想法吗？我很想把真正的图像过滤器腌在任何秘密酱汁里，模比用的是什么？

Stack Overflow用户

发布于 2018-05-25 11:53:57

不知道你到底在做什么，因为我看不见你的代码。

票数 0

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/-100008580

复制

相似问题

问是什么让苹果的PowerPC记忆如此之快？
EN

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是什么让苹果的PowerPC记忆如此之快？EN

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是什么让苹果的PowerPC记忆如此之快？
EN