我正在使用slurm,我开始尝试弄清楚为什么我的脚本没有运行/为什么它被排队了。根据我的说法,应该有足够的资源来运行,但slurm不同意。我怎么检查这个?
命令已运行:
squeue -o "%22i,%.12j,%.8u,%25R,%22b,%.7m,%6q,%6Q,%t,%V,%.S,%e,%l,%L,%M"
输出:
JOBID , NAME, USER,NODELIST(REASON) ,GRES ,MIN_MEM,QOS ,PRIORI,ST,SUBMIT_TIME,START_TIME,END_TIME,TIME_LIMIT,TIME_LEFT,TIME
1843_[21-32] ,flatness_exp,me,(Resources) ,gpu:1 , 3000M,(null),429490,PD,2018-07-17T15:01:12,2018-07-20T13:31:12,2018-07-20T13:31:12,2-22:30:00,2-22:30:00,0:00
但是有什么资源呢?记忆?Gpu内存?CPU?GPU?到底是什么,这就是我想要的,正是。
发布于 2018-07-18 14:32:33
在squeue
命令的输出中,您将找到一个名为NODELIST(REASON)
的字段。括号中的代码对应于作业未启动的原因。
在您的示例中,由于资源的原因,作业无法执行。如果我们检查squeue
documentation中的代码,我们会发现:
The job is waiting for resources to become available.
在该documentation中,您将找到其余原因代码的描述。
https://stackoverflow.com/questions/51388748
复制相似问题