我正在尝试创建我自己的计算机集群(也许是一个Beowulf,尽管随意使用这个术语显然并不酷),并且已经安装了Slurm作为我的调度程序。输入sinfo
后,一切看起来都正常
danny@danny5:~/Cluster/test$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 5 idle danny[1-5]
danny@danny5:~/Cluster/test$
但是,如果我尝试使用以下脚本提交作业
danny@danny5:~/Cluster/test$ cat script.sh
#!/bin/bash -l
#SBATCH --job-name=JOBNUMBA0NE
#SBATCH --time=00-00:01:00
#SBATCH --partition=debug
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=100
#SBATCH -o stdout
#SBATCH -e stderr
#SBATCH --mail-type=END
#SBATCH --mail-user=dkweiss@wesleyan.edu
gfortran -O3 -i8 0-hc1.f
./a.out
我收到了一个可爱的Submitted batch job 6
,但是squeue
中什么也没有出现,预期的输出文件也没有实现(可执行的a.out文件甚至都没有出现)。我将附加scontrol show partition
的相关信息
danny@danny5:~/Cluster/test$ scontrol show partition
PartitionName=debug
AllocNodes=ALL AllowGroups=ALL Default=YES
DefaultTime=NONE DisableRootJobs=NO GraceTime=0 Hidden=NO
MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 MaxCPUsPerNode=UNLIMITED
Nodes=danny[1-5]
Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF
State=UP TotalCPUs=8 TotalNodes=5 SelectTypeParameters=N/A
DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED
有什么想法吗?
发布于 2018-11-23 21:01:25
我也有同样的问题,我想可能有更多的原因导致工作消失而没有任何反馈,但在我的例子中,slurm只是错过了特权。因此:
sudo
运行sbatch
,如果成功,这可能是相同的问题。发布于 2017-08-14 20:14:49
我已经看到,当提交作业的用户(这里是danny
)在计算节点上不存在具有相同UID的用户时,会出现这种行为。确保id danny
在所有与Slurm相关的节点上报告相同的输出。您应该在计算节点的slurm日志文件中查找确认信息。
https://stackoverflow.com/questions/45646247
复制相似问题