向正在运行的slurm作业添加时间_SLURM:连续运行的并行数组作业_SLURM -如何确定作业正在使用哪些特定的CPU？ - 腾讯云开发者社区

我有一个运行由slurm管理的linux机器的工作。现在作业已经运行了几个小时，我意识到我低估了完成作业所需的时间，因此我指定的--time参数的值是不够的。有没有一种方法可以通过slurm为现有的运行作业增加时间？

浏览 2提问于2015-02-09得票数 79

回答已采纳

1回答

仅使用一个GPU时，SLURM作业会占用整个节点

我正在向SLURM队列提交多个作业。每个作业使用1个GPU。每个节点有4个GPU。然而，一旦作业开始运行，它就会占用整个节点，留下3个空闲的GPU。有没有办法避免这种情况，这样我就可以向一个节点发送多个作业，每个节点使用一个GPU？我的脚本如下所示：#SLURM --ntasks-per-node 1 #SLURM

浏览 2提问于2018-03-21得票数 3

1回答

更改外部SLURM变量的值

我正在运行一个bash脚本，使用SLURM在Linux集群上运行作业。脚本的相关部分如下所示(slurm.sh)：#SBATCH --mail-type=ALL我从另一个脚本(ext.sh)调用此脚本，该脚本的一部分如下所示/bin/bash source s

浏览 2提问于2014-05-30得票数 0

1回答

Slurm新工作节点

、、

我希望构建一个自动创建和删除节点的集群环境。作业将使用Slurm分发到各个节点。两个问题：是否为Slurm工作人员设置了一个代理或类似的代理，以便节点自动向头节点注册？可以在运行时更改Slurm配置文件吗？(因为可以添加或删除新的工作节点)。

浏览 6提问于2022-03-21得票数 0

1回答

如何使用SLURM通过CUDA在GPU网格上运行多个作业

、、

我一直致力于使用CUDA加速作业的处理时间。通常这将是相当简单的，但是我遇到了一个相当有趣的问题。我们正在使用slurm来调度我们的作业，通过添加CUDA代码并启用编译，它将单个作业的时间减少了一半。在查看GPU上的负载时会出现此问题。在启用CUDA之前，我们可以在每个节点上运行6个作业。但是，启用CUDA后，

浏览 0提问于2018-08-16得票数 1

回答已采纳

1回答

修改mesos代理以添加动态更改的自定义资源

、

我正在开发一个新的mesos-slurm框架，其中来自外部的作业也可以被推送到slurm队列中。更新，以更好地解释问题：mesos代理在HPC中编排作业的同一台计算机上安装了slurm。这个Slurm既可以从mesos执行器接收作业，也可以从其他方法接收作业(例如，第三方用户通过ssh将作业直接发送给slurm )。因此，我希望代理在向

浏览 3提问于2017-02-01得票数 2

1回答

进程的最大超时

、、

基本上，它在队列未满时提交slurm作业，并且在此过程中可以等待一段时间。脚本导致不完整的结果，使我认为有一个最大的执行时间。这种默认超时真的存在吗？如果是的话，我怎样才能重置到无限的时间？

浏览 0提问于2018-10-05得票数 0

4回答

Slurm作业，知道它在哪个节点上

、

在bash/slurm中是否有一种方法可以让脚本知道它运行在哪个节点上？sstat是这样做的，但是我需要知道我的工作id是什么，脚本似乎也不知道这个id(或者至少我还没有找到它)。

浏览 7提问于2017-05-12得票数 4

回答已采纳

1回答

我的回填作业如何知道调度程序为它分配了多少时间？

我有一个应用程序，它接受一个命令行参数，告诉它已经分配了多少时间。然后，应用程序在方便的时间点对自身设置检查点，并在指定的时间量之前退出。我正在启动工作， sbatch --time=240 --time-min=60 如何在我的run.sub文件中找出调度程序为我的作业分配了多少时间？我假设会有一个环境变量来告诉我时间分配，就像$SLURM_JOB_NUM_NODES告诉我已经分

浏览 22提问于2021-08-06得票数 0

1回答

如果分区的默认时间限制不够，如何在SLURM中运行更长的作业？

、、

我在linux集群中提交了我的作业(使用SLURM调度作业)，但每个分区的时间限制只有24小时(实际上这个限制是由管理员设置的)，而且我的代码似乎需要运行一周以上(根据我的猜测)。我是SLURM脚本的新手，对以下内容之间的相互作用略知一二：#SBATCH --ntasks-per-node=

浏览 1提问于2021-04-23得票数 2

2回答

Slurm数组作业，每个节点最多有一个并发作业

、

问题(你感兴趣的原因:我无法控制复杂的工作安排。每个作业都在硬编码端口上启动一堆服务器。如果在一个节点上同时运行这些冲突:-/ (是的，我知道，不要告诉我)。ntasks-per-node=1 -- \ bash -c '\''

浏览 6提问于2021-06-20得票数 2

回答已采纳

1回答

是否可以在已经登录到集群节点上的节点上运行slurm作业？假设我已经登录了节点：casade02这样我就不用排队了。如果这很重要，我可以将ssh转换到特定的节点中，比如ssh user@casacde01。然后，我可以登录到我指定为“head”节点的节点，然后说，‘好的，在casacde02和casacde03上运行这段代码吗？’ 我在看这个stackexchange帖子，它给出了S批处理的-w

浏览 0提问于2022-10-03得票数 1

1回答

将slurm设置为在nextflow中跨节点分发作业。

、、

我正在运行一个3节点集群上的nextflow管道。当我通过slurm运行管道时，它会创建大量的作业，我通过使用executor.queueSize =X指令来限制这些作业。然而，slurm所做的是使节点1饱和，然后饱和节点2，然后开始向节点3发送作业，我希望它能更均匀地分配作业列表。我尝试了许多slurm命令，包括--

浏览 18提问于2022-07-14得票数 2

回答已采纳

1回答

是否有可能在SLURM中请求更多的时间来运行作业？

、

我知道在排队的作业上可以通过scontrol更改指令，例如这只在某些情况下起作用，取决于slurm实例的管理配置因此，没有回答我的问题。我正在寻找的是一种方法，要求SLURM为运行中的作业增加更多的时间，如果资源可用，即使它已经在运行。有点像嵌套<

浏览 0提问于2019-08-22得票数 1

1回答

限制slurm中并行作业数量的效率

、、、

我的问题是基于问题。我应该考虑使用--array=0-60000%200来限制slurm中并行运行的200个作业的数量。在我看来，每次一份旧工作完成，就需要花上一分钟的时间去吃午饭--一份新工作。考虑到我计划运行的工作数量，我可能会以这种方式浪费大量时间。我编写了一个“最可能的”非常低效的替代方案，包括一个启动作业的脚本，检查

浏览 1提问于2019-01-19得票数 1

回答已采纳

1回答

Slurm作业已排队但未运行

我正在尝试在运行Ubuntu的Virtualbox上安装slurm。我们使用它通过web界面运行长时间运行的作业，并使用slurm对作业进行排队和运行。我已经设置了slurm，但是当我将一个作业排入队列并运行squeue时，我得到： $ squeue JOBID PARTITION NAME

浏览 729提问于2021-10-14得票数 2

回答已采纳

3回答

如何在SLURM中查找提交作业的位置？

、、

我通过SLURM向我们学校的HPC集群提交了几个工作。因为所有shell脚本都具有相同的名称，所以作业名称看起来完全相同。RUNNING 0:0 如何知道作业是从哪个目录提交的，以便区分作业？

浏览 0提问于2014-07-05得票数 15

回答已采纳

1回答

如何立即将所有Snakemake作业提交给slurm集群

、、、、

我正在使用snakemake构建一个可以在SLURM集群上运行的可变调用管道。集群有登录节点和计算节点。任何真正的计算都应该以srun或sbatch作业的形式在计算节点上完成。作业仅限于48小时的运行时。我的问题是，处理许多样本，特别是当队列繁忙时，需要超过48个小时来处理每个样本的所有规则。传统的snakemake集群执行只在规则的所有依赖项完

浏览 0提问于2019-12-30得票数 5

回答已采纳

1回答

Cgroup和Slurm

、

我知道如何使用cgroups(分配内存、cpu使用率...)和slurm(提交、挂起/停止作业)。我想知道cgroups是如何使用slurm的。当我向slurm提交作业时，我可以在哪里修复内存或CPU使用率？我阅读了Slurm Schedmd()的文档，但它没有给出很好的解释。也许这是对我的误解。谁能解释一下如何使用slurm中的cgroup为作

浏览 4提问于2017-05-22得票数 3

1回答

Slurm:如何重新启动失败的工人作业

、、

如果在slurm集群上运行数组作业，如何重新启动失败的工人作业？在Sun引擎队列中，可以将#$ -r y添加到作业文件中，以指示如果作业失败，应该重新启动作业--此标志的Slurm等效于什么？

浏览 2提问于2018-06-02得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云