首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Slurm中提交的作业不会出现在squeue中,也不会被安排

Slurm中提交的作业不会出现在squeue中,也不会被安排
EN

Stack Overflow用户
提问于 2017-08-12 11:32:43
回答 2查看 3.1K关注 0票数 1

我正在尝试创建我自己的计算机集群(也许是一个Beowulf,尽管随意使用这个术语显然并不酷),并且已经安装了Slurm作为我的调度程序。输入sinfo后,一切看起来都正常

代码语言:javascript
运行
复制
danny@danny5:~/Cluster/test$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug*       up   infinite      5   idle danny[1-5]
danny@danny5:~/Cluster/test$ 

但是,如果我尝试使用以下脚本提交作业

代码语言:javascript
运行
复制
danny@danny5:~/Cluster/test$ cat script.sh
#!/bin/bash -l
#SBATCH --job-name=JOBNUMBA0NE
#SBATCH --time=00-00:01:00
#SBATCH --partition=debug
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=100
#SBATCH -o stdout
#SBATCH -e stderr
#SBATCH --mail-type=END
#SBATCH --mail-user=dkweiss@wesleyan.edu

gfortran -O3 -i8 0-hc1.f

./a.out

我收到了一个可爱的Submitted batch job 6,但是squeue中什么也没有出现,预期的输出文件也没有实现(可执行的a.out文件甚至都没有出现)。我将附加scontrol show partition的相关信息

代码语言:javascript
运行
复制
danny@danny5:~/Cluster/test$ scontrol show partition
PartitionName=debug
   AllocNodes=ALL AllowGroups=ALL Default=YES
   DefaultTime=NONE DisableRootJobs=NO GraceTime=0 Hidden=NO
   MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 MaxCPUsPerNode=UNLIMITED
   Nodes=danny[1-5]
   Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF
   State=UP TotalCPUs=8 TotalNodes=5 SelectTypeParameters=N/A
   DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

有什么想法吗?

EN

回答 2

Stack Overflow用户

发布于 2018-11-23 21:01:25

我也有同样的问题,我想可能有更多的原因导致工作消失而没有任何反馈,但在我的例子中,slurm只是错过了特权。因此:

  1. 尝试使用sudo运行sbatch,如果成功,这可能是相同的问题。
  2. 如果您不能尝试,请至少手动定义输出和错误文件路径,并确保slurm能够在其中写入。
票数 1
EN

Stack Overflow用户

发布于 2017-08-14 20:14:49

我已经看到,当提交作业的用户(这里是danny)在计算节点上不存在具有相同UID的用户时,会出现这种行为。确保id danny在所有与Slurm相关的节点上报告相同的输出。您应该在计算节点的slurm日志文件中查找确认信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45646247

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档