我使用SLURM作业管理器在运行UbuntuServer14.04.3的Linux集群中分配作业。我注意到sinfo报告了所有处于混合模式的节点,无论它们是部分分配的还是完全分配的;空闲节点被正确地报告为空闲。下面是sinfo命令的输出:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute* up infinite 5 mix node[01-05]
compute* up infinite 1 idle node06
但是,node04是完全分配的,因此sinfo应该将其状态报告为alloc,而使用scontrol命令可以看到node03被部分分配:
scontrol show node node04
CPUAlloc=6 CPUErr=0 CPUTot=6 CPULoad=6.01 Features=(null)
Gres=(null)
NodeAddr=node04 NodeHostName=node04
OS=Linux RealMemory=64333 AllocMem=0 Sockets=1 Boards=1
State=ALLOCATED ThreadsPerCore=1 TmpDisk=0 Weight=1
BootTime=2016-04-11T16:38:52 SlurmdStartTime=2016-04-11T16:39:59
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
scontrol show node node03
CPUAlloc=1 CPUErr=0 CPUTot=6 CPULoad=1.01 Features=(null)
Gres=(null)
NodeAddr=node03 NodeHostName=node03
OS=Linux RealMemory=64333 AllocMem=0 Sockets=1 Boards=1
State=MIXED ThreadsPerCore=1 TmpDisk=0 Weight=1
BootTime=2016-04-11T16:38:38 SlurmdStartTime=2016-04-11T16:39:08
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
sinfo怎么了?
谢谢您的建议!
发布于 2016-05-17 12:37:40
如果其他人有这个问题,这个问题在几年前就已经解决了:
https://stackoverflow.com/questions/36576079
复制相似问题