在我们的大学,我们有两个HPC团簇,专门用于量子化学计算。一个是旧的(自2009年起),新的一个是几周前安装的。新旧集群系统中的每一个计算刀片都有16个处理器。在两个集群上都安装了相同的程序,并使用OpenMpi 1.6.5。在旧集群中,每个刀片的处理器使用率稳定在100 %,如下所示:
现在,当在新集群的计算刀片上运行完全相同的计算时,CPU使用率一直在0%到100 %之间波动,在大多数情况下如下所示:
在旧集群上的计算,即使处理器是老一代的,而且功耗较低,完成的时间也比在新集群上开始的时间要短得多。两个集群系统都在运行RedHat linux企业。
这里有什么问题吗?以及如何修复它?
提前谢谢你的帮助。
发布于 2016-10-17 11:45:49
我终于解决了这个问题。我想我应该把它发到这里来帮助任何可能遇到同样问题的人。在具有CPU频率问题的新集群上,计算直接在/home分区上运行,该分区通过NFS (网络文件系统)连接到各个计算刀片。这极大地减慢了计算速度,导致了低CPU频率问题和高等待时间,这可能是由于使用了大量资源在刀片和/home目录之间建立恒定的连接。当我修改脚本使计算在每个刀片内的一个临时文件夹中运行时,问题就解决了。
https://stackoverflow.com/questions/37482132
复制相似问题