我已经在谷歌上搜索过了,并阅读了文档。
我的本地集群正在使用SLURM。我想检查以下内容:每个节点有多少核?队列中的每个作业预留了多少个核心?
任何建议都将不胜感激!
发布于 2016-12-23 20:54:43
为了查看所有节点的详细信息,您可以使用:
scontrol show node
对于特定节点:
scontrol show node "nodename"
对于作业的核心,您可以使用格式标记%C,例如:
squeue -o"%.7i %.9P %.8j %.8u %.2t %.10M %.6D %C"
更多关于格式的info。
发布于 2016-12-27 01:54:19
您可以使用sinfo
命令获取有关集群中节点的大多数信息,例如,使用:
sinfo --Node --long
您将获得关于分区、节点状态、套接字数量、内核、线程、内存、磁盘和功能的简要信息。它比scontrol show nodes
的输出更容易阅读。
关于每个作业的CPU数量,请参阅@Sergio Iserte的答案。
请参阅手册页here。
发布于 2021-09-28 04:22:39
要在@damienfrancois的答案上进行构建:
我发现sinfo
是最有用的,但是命令参数应该不同。如果您只想知道每个节点的内核、每个节点的内存、可用性以及每个节点有多少可用,只需执行以下操作。
对于快速节点状态:sinfo -o "%n %e %m %a %c %C"
输出如下所示:
HOSTNAMES FREE_MEM MEMORY AVAIL CPUS CPUS(A/I/O/T)
m-4-06 301585 950000 up 96 88/8/0/96
m-4-07 654944 950000 up 72 71/1/0/72
m-4-09 628696 950000 up 72 49/23/0/72
c-0-02 36741 115000 up 24 24/0/0/24
c-0-03 47512 115000 up 24 24/0/0/24
m-2-01 699025 950000 up 72 72/0/0/72
HOSTNAMES
告诉你集群的节点,如果你想要提交到你想要使用的特定节点。
FREE_MEM
以MB为单位告诉您该节点有多少可用内存。
MEMORY
会以MB为单位告诉您该节点在未使用时的默认内存大小。
AVAIL
会告诉您该节点是否已启动(如果您有问题)。
假设该节点未使用,CPUS
会告诉您该节点上的cpus总数。
CPUS(A/I/O/T)
会告诉您已分配/空闲/其他/总cpus的数量。分配的cpus是不可用的核心,并且当前正在作业中使用。空闲cpus可以立即使用,其他意味着它们可能处于停机状态或处于某种不同的中期运行状态,而total只是重申cpus总数。
有关此命令的输出以及如何对其进行格式化的更多详细信息,请参阅here。
https://stackoverflow.com/questions/41299911
复制相似问题