首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >并行但不同的Slurm运行作业步骤调用无效

并行但不同的Slurm运行作业步骤调用无效
EN

Stack Overflow用户
提问于 2016-02-19 06:32:18
回答 3查看 4.9K关注 0票数 7

我想在大量不同的输入文件上运行相同的程序。我可以把每一个都作为一个单独的Slurm提交来提交,但是我不想一次抛掉1000个作业来淹没队列。我一直在试图找出如何处理相同数量的文件,方法是先创建一个分配,然后在分配中循环使用srun的所有文件,给每个调用分配一个单独的核心。问题是,无论我做什么,一次只运行一个工作步骤。我能想到的最简单的测试案例是:

代码语言:javascript
代码运行次数:0
运行
复制
#!/usr/bin/env bash

srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &

wait

不管我分配了多少个核心,分配:

代码语言:javascript
代码运行次数:0
运行
复制
time salloc -n 1 test
time salloc -n 2 test
time salloc -n 4 test

总要花4秒。不可能并行执行多个作业步骤吗?

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2016-02-28 00:10:09

结果是没有定义每个cpu的默认内存,因此即使是单个核心作业也是通过保留节点的所有RAM来运行的。

设置DefMemPerCPU,或指定显式内存保留,都是其中的诀窍。

票数 6
EN

Stack Overflow用户

发布于 2016-02-24 14:33:17

请注意,在这种情况下,您可以同时测量运行时间和等待时间。您的提交脚本应该如下所示:

代码语言:javascript
代码运行次数:0
运行
复制
#!/usr/bin/env bash

time {
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
srun --exclusive --ntasks 1 -c 1 sleep 1 &
wait
}

简单地提交给

代码语言:javascript
代码运行次数:0
运行
复制
salloc -n 1 test
salloc -n 2 test
salloc -n 4 test

然后,您应该观察到差异,以及使用srun: Job step creation temporarily disabled, retrying时的消息(如n<4 )。

票数 4
EN

Stack Overflow用户

发布于 2022-05-15 17:15:18

由于OP解决了他的问题,但没有提供代码,我将在下面分享我对这个问题的看法。

在我的例子中,我遇到了错误/警告step creation temporarily disabled, retrying (Requested nodes are busy)。这是因为,首先执行的srun命令分配了所有内存。与OP所遇到的原因相同。要解决这个问题,首先可以选择(?)指定sbatch的总内存分配(如果您使用的是sbatch脚本):

代码语言:javascript
代码运行次数:0
运行
复制
#SBATCH --ntasks=4
#SBATCH --mem=[XXXX]MB

然后为每个任务指定内存使用情况:

代码语言:javascript
代码运行次数:0
运行
复制
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
srun --exclusive --ntasks=1 --mem-per-cpu [XXXX/4]MB sleep 1 &
wait

我没有为srun指定CPU计数,因为在我的sbatch脚本中包含了#SBATCH --cpus-per-task=1。出于同样的原因,我怀疑您可以在--mem命令中使用--mem-per-cpu而不是--mem-per-cpu,但是我还没有测试这个配置。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35498763

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档