造成这种情况的主要原因是并行程序可用的总缓存大小。有了更多的CPU(或核心)，就可以访问更多的缓存内存。在某种程度上，很大一部分数据适合缓存，这大大加快了计算速度。另一种看待它的方法是，您使用的CPU /核越多，每个CPU所获得的数据的部分就越小，直到该部分真正适合单个CPU的缓存。不过，这迟早会被通信开销取消。

此外，与单个节点上的执行相比，您的数据显示了速度的提高。使用OpenMP可以消除使用MPI进行内部数据交换时的一些开销，因此与纯MPI代码相比，可以提高速度。

这个问题来自于错误使用的术语理想加速。理想情况下，可以考虑缓存效果。我宁愿使用线性代替。

票数 5

Stack Overflow用户

发布于 2015-10-06 13:51:25

不太确定这是什么话题，但这没什么.

当您在内存中使用MPI分配数据时，当您并行处理代码时，这种速度上的超线性通常会发生。在某些情况下，通过将数据分布在多个节点/进程之间，您将得到足够小的数据块来处理适合处理器高速缓存的每个单独的进程。这种缓存效应可能会对代码的性能产生巨大的影响，从而大大加速并补偿MPI通信需求的增加.在许多情况下都可以观察到这一点，但这并不能用来补偿糟糕的可伸缩性。

另一种可以观察到这种超线性可伸缩性的情况是，当您有一种算法，在大型集合中分发查找特定元素的任务时:通过分发您的工作，您可以在几乎立即找到结果的进程/线程中结束，仅仅因为它恰好被赋予范围的索引开始非常接近答案。但是这种情况比前面提到的缓存效果更不可靠。

希望这能给你一个超线性的味道。

票数 2

Stack Overflow用户

发布于 2015-10-06 14:21:58

有人提到了缓存，但这并不是唯一可能的原因。例如，您可以想象一个并行程序，它没有足够的内存在低节点计数时存储其所有数据结构，而在高节点上存储敌人。因此，在低节点计数时，程序员可能被迫将中间值写入磁盘，然后再读取它们，或者在需要时重新计算数据。但是，在节点计数较高的情况下，不再需要这些游戏，程序可以将所有数据存储在内存中。因此，超线性加速是可能的，因为在较高的节点计数时，代码只是通过使用额外的内存来避免I/O或计算，从而减少了工作量。

实际上，这与在其他答案中注意到的缓存效果是一样的，使用额外的资源来获得它们。这就是真正的诀窍--更多的节点不仅仅意味着更多的核心，它还意味着更多的资源，所以如果你也能使用其他额外的资源，你就能达到超线性的速度。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32971447

复制

相似问题

问加速比上界
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加速比上界EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问加速比上界
EN