Slurm作业在使用more时生成神秘的冒号字符串_在使用with str_extract删除开头的子字符串时生成NAs - 腾讯云开发者社区

、、

我有一个shell脚本，它向SLURM提交多个作业。这些作业是在以下循环中提交的： nb_partitions=72 slurmids=() # storage of slurm job ids for k in $(seq 1 $nb_partitions); do cd results/partition$k/MainFolder ID=$(sbatch --parsable estimation.sh) slurmids+=($ID) cd .. cd .. cd .. done echo "Jobs ar

浏览 2提问于2021-07-01得票数 1

回答已采纳

1回答

Slurm作业在使用more时生成神秘的冒号字符串

、、

我试图在一组文件上运行一些生物信息学软件，但当我使用slurm提交它时，该工具意外失败，显然是由于输入文件列表的错误传递。如果我在命令行中运行它，它似乎可以工作。我已经替换了下面的一些玩具文件名，因为实际的文件名非常长。该工具名为rMATs，但该工具本身与我的问题无关。我使用.sbatch文件从命令行将作业提交到集群，如下所示： sbatch job.sbatch group1.txt group2.txt 其中两个文本文件包含逗号分隔的数据文件列表。在.sbatch文件中，我将变量传递给生物信息学工具，如下所示： #!/bin/bash #SBATCH --time=00:00:20 #

浏览 18提问于2019-01-03得票数 2

回答已采纳

1回答

如何在slurm中指定在单个作业完成时发送电子邮件，而不是在每个slurm数组任务完成时发送电子邮件？

我在slurm中使用sbatch运行了许多作业，如下所示： #!/usr/bin/env python #SBATCH --job-name=Python #SBATCH --array=1-200 #SBATCH --mem=4000 #SBATCH --time=0-18:20 #SBATCH --mail-type=ALL #SBATCH --mail-user=my_mail@yahoo.com 然而，似乎正在发生的是slurm为每个数组发送了一封电子邮件。但是，我不希望slurm这样做，我只希望当slurm数组都运行完毕(或失败)时给我发送一封电子邮件。也就是说，当一个特定的任务(以

浏览 1提问于2016-10-22得票数 3

1回答

调度比MaxArraySize更多的任务

假设我要运行6233个模拟。这些命令被生成并存储在一个文件中，每一行一个。我想使用Slurm来调度和运行这些命令。然而，MaxArraySize的限制是2000年。因此，我不能使用一个作业数组来调度所有这些任务。给出了一种解决方案，在中，我们创建四个单独的作业，并在文件中使用算术索引，最后一个作业有较少的任务要运行(233)。是否可以使用一个带有一个作业ID的S批处理脚本来完成这个任务？我在使用作业数组时设置了ntasks=1。在这种情况下，更大的任务有帮助吗？ Update：按照Damien的解决方案和给出的示例，我在bash脚本中得到了以下行： curID=$(( $

浏览 9提问于2022-05-10得票数 1

回答已采纳

1回答

slurm作业阵列与作业步骤绩效的差异

、、

我在slurm中运行了一组并行作业(大约1000)，每个任务都必须分配给一个CPU。阅读，我发现了以下内容：最佳实践，大量职务考虑将相关工作放入具有多个作业步骤的单一Slurm作业中，这既是出于性能原因，也是为了便于管理。每个Slurm作业可以包含多个作业步骤，而Slurm中用于管理作业步骤的开销要比单个作业低得多。作业数组是管理具有相同资源需求的批处理作业集合的有效机制。大多数Slurm命令可以作为单个元素(任务)或单个实体(例如，在单个命令中删除整个作业数组)来管理作业数组。这似乎意味着具有多个作业步骤的单个作业(例如，一个具有多个srun调用的批处理脚本，每个调用具有相同

浏览 4提问于2019-07-25得票数 4

回答已采纳

1回答

使用依赖项链接多个SLURM作业

、

在previous question中，我询问如何将作业B排队，使其在作业A之后开始，这是通过 sbatch --dependency=after:123456:+5 jobB.slurm 其中123456是作业A的id，:+5表示它将在作业A之后五分钟启动。我现在需要为几个作业执行此操作。作业B应依赖于作业A，作业C对应于B，作业D对应于C。 sbatch jobA.slurm将返回Submitted batch job 123456，我需要将作业id传递给除了第一个作业之外的所有依赖项的调用。由于我使用的是一个繁忙的集群，我不能依赖于将作业ids递增1，因为有人可能会在两者之间排队作业。

浏览 86提问于2021-01-12得票数 1

回答已采纳

3回答

将HEREDOC与SLURM sbatch一起使用--wrap

、、、

我在使用(Bash) HEREDOC和通过--wrap提交SLURM sbatch时遇到了困难。我希望以下内容能起作用： SBATCH_PARAMS=('--nodes=1' '--time=24:00:00' '--mem=64000' '--mail-type=ALL') sbatch ${SBATCH_PARAMS[@]} --job-name="MWE" -o "MWE.log" --wrap <<EOF SLURM_CPUS_ON_NODE=\${SLURM

浏览 107提问于2018-10-31得票数 0

回答已采纳

1回答

是否在slurm中打印每个作业使用的cpus数量？

我们已经将sge的slurm用于我们的集群作业排队系统。在sge中，当您使用qstat函数时，它会打印每个作业使用的cpus/插槽的数量--在slurm中有没有简单的方法可以做到这一点？squeue只显示每个作业使用的节点数。谢谢。 JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 1981 q run-01 root R 16:21 1 node001 1982 q

浏览 59提问于2020-11-20得票数 2

回答已采纳

1回答

关于运行4个并行作业的替代方法的问题

下面是三个不同的sbatch脚本，它们产生了大致相似的结果。 (我只显示脚本不同的部分；##前缀表示通过将脚本提交给sbatch获得的输出。) 脚本0 #SBATCH -n 4 srun -l hostname -s ## ==> slurm-7613732.out <== ## 0: node-73 ## 1: node-73 ## 2: node-73 ## 3: node-73 脚本1 #SBATCH -n 1 #SBATCH -a 1-4 srun hostname -s ## ==> slurm-7613733_1.out <== ## node

浏览 4提问于2017-09-29得票数 1

回答已采纳

1回答

Cgroup和Slurm

、

我知道如何使用cgroups(分配内存、cpu使用率...)和slurm(提交、挂起/停止作业)。我想知道cgroups是如何使用slurm的。当我向slurm提交作业时，我可以在哪里修复内存或CPU使用率？我阅读了Slurm Schedmd()的文档，但它没有给出很好的解释。也许这是对我的误解。谁能解释一下如何使用slurm中的cgroup为作业分配一些资源？提前谢谢。

浏览 4提问于2017-05-22得票数 3

1回答

修改mesos代理以添加动态更改的自定义资源

、

我正在开发一个新的mesos-slurm框架，其中来自外部的作业也可以被推送到slurm队列中。更新，以更好地解释问题：mesos代理在HPC中编排作业的同一台计算机上安装了slurm。这个Slurm既可以从mesos执行器接收作业，也可以从其他方法接收作业(例如，第三方用户通过ssh将作业直接发送给slurm )。因此，我希望代理在向mesos发送报价之前能够知道slurm队列的状态(正在运行和等待运行的作业数量)，并相应地提供资源。这不能仅仅通过知道执行者接受的任务来实现，因为HPC的其他资源可以被直接使用slurm的第三方用户占用。换句话说，我想做的是定制代理了解可用资源的方式，以

浏览 3提问于2017-02-01得票数 2

1回答

将参数传递到slurm脚本

、、、、

我使用slurm脚本在集群上运行用于Matlab计算的数组。每个脚本都使用一个数组来循环matlab参数。 1)是否有可能创建一个shell脚本来循环另一个变量？ 2)可以将变量传递给slurm脚本吗？例如，我的slurm文件当前看起来像 #!/bin/bash #SBATCH --array=1-128 ... matlab -nodesktop r "frame=[${SLURM_ARRAY_TASK_ID}]; filename=['Person24']; myfunction(frame, filename);"; 我经常需要运行这个数组来处理许多不同

浏览 0提问于2019-06-18得票数 2

回答已采纳

1回答

如何立即将所有Snakemake作业提交给slurm集群

、、、、

我正在使用snakemake构建一个可以在SLURM集群上运行的可变调用管道。集群有登录节点和计算节点。任何真正的计算都应该以srun或sbatch作业的形式在计算节点上完成。作业仅限于48小时的运行时。我的问题是，处理许多样本，特别是当队列繁忙时，需要超过48个小时来处理每个样本的所有规则。传统的snakemake集群执行只在规则的所有依赖项完成运行后才会运行主线程，该主线程只向队列提交规则。我应该在一个计算节点上运行这个主程序，所以这将我整个管道的运行时间限制在48小时。我知道SLURM作业有依赖指令，这些指令告诉作业等待运行，直到其他作业完成。因为snakemake工作流是一个DAG，

浏览 0提问于2019-12-30得票数 5

回答已采纳

1回答

是否可以强制SLURM只访问作业的运行文件夹而不更改任何其他文件？

我观察到，当我运行SLURM作业时，它可以在其他文件夹路径上创建文件，也可以删除它们。通过SLURM作业，他们可以访问其他文件夹/文件并对其进行更改，这似乎很危险。 $ sbatch run.sh run.sh： #!/bin/bash #SBATCH -o slurm.out # STDOUT #SBATCH -e slurm.err # STDERR echo hello > ~/completed.txt rm ~/completed.txt 是否有可能强迫SLURM只访问它自己的运行文件夹，而不能访问其他文件夹？

浏览 5提问于2017-06-14得票数 3

回答已采纳

2回答

通过slurm epilog脚本修改文件无效

我在CentOS 6.9上运行slurm17.11.7。我已经修改了我的/gpfs0/export/slurm/conf/epilog脚本。我最终希望将作业资源利用率信息打印到每个用户的作业所使用的stdout文件中。在向其他用户推出它之前，我已经在脚本末尾的条件中对它进行了测试。下面是我修改后的epilog脚本： #!/bin/bash # Clear out TMPDIR on the shared file system after job completes exec >> /var/log/epilog.log exec 2>> /var/log/epil

浏览 95提问于2019-01-18得票数 0

回答已采纳

1回答

slurm可以运行3台独立的计算机作为一个“节点”吗？

我是一个实习生，负责在三个运行ubuntu的计算单元上安装slurm。现在的工作方式是将ssh放入其中一个计算单元中，并在其中运行一个作业，因为所有三个单元都通过nfs挂载共享内存。否则，它们是不同的机器。我的问题是，从我在文档中看到的情况来看，在安装slurm时，我会将每个计算单元指定为一个完全独立的节点，而我想要运行的任何使用多个核的作业仍然会受到单个节点上可用的核数的限制。然而，我的主管告诉我，这三个单元应该作为一个节点安装，当一个作业需要比单个计算单元上可用的内核更多的内核时，slurm应该只使用所有的核心。我们的意图是，我们不会改变执行作业的方式(就像并行化的R脚本)，在将作业发送

浏览 0提问于2020-02-29得票数 0

回答已采纳

1回答

如何强迫用户在slurm中的某个目录中提交作业

我试图设置SLURM，使SLURM接受在某个目录中提交的作业，否则拒绝该作业。要激活prolog脚本，我已经将slurm.conf设置为： PrologSlurmctld=/etc/slurm-llnl/prolog/dircheck-prolog /etc/slurm/prolog中的prolog脚本： #!/bin/bash if [[ $PWD = /home/slek/Desktop/scratch/* ]]; then exit 0 fi exit 1 但是，无论提交的位置如何，职务仍然被提交。如有任何建议，将不胜感激。

浏览 0提问于2019-05-04得票数 1

回答已采纳

4回答

使用python自动创建bash脚本

、、

我正在尝试为我在中列出的一个问题寻求帮助，从一些进一步的研究中，我认为Python脚本可能是答案。也就是说，我是Python的新手，不确定如何实现我的想法，也不确定它是否正确。基本上，我认为我需要一个python脚本，它可以接受我传递给它的变量，然后将这些变量写到.sh文件中。有没有简单的方法可以做到这一点？编辑:作为对一些评论的回应，我认为我应该更多地阐明我的问题。我正在通过SLURM脚本运行matlab函数。SLURM脚本(我认为)是一种bash脚本，但它专门用于在HPC上调度作业。我的问题是，例如，我希望一次提交10个作业，但所有作业都将某个特定变量更改为某个值。现在，问题是我不能

浏览 1提问于2019-07-19得票数 0

1回答

什么是核心转储文件？

当我通过sbatch使用Slurm运行作业时，有时它会生成一个文件名为core.12345 (在不同的时间具有不同的5位字符串)。我没有找到任何关于这个文件的功能和为什么生成它的文档，但是在文档中有一些。这个文件是做什么的，为什么要生成它？(它甚至是由Slurm生成的，还是其他什么东西？) 有什么方法可以抑制它的产生吗？(它很大，按几千兆字节的大小计算，并自动写入集群上的主目录)

浏览 0提问于2019-06-10得票数 2

回答已采纳

3回答

如何将作业提交到SLURM节点列表中的任意[子集]节点？

、、、

我有几千个作业要在一个有16个节点的SLURM集群上运行。这些作业只能在大小为7的可用节点的子集上运行。一些任务是并行化的，因此使用了单个节点的所有CPU能力，而其他任务是单线程的。因此，应该在单个节点上同时运行多个作业。任何任务都不应在多个节点上生成。目前，我提交的每个作业如下： sbatch --nodelist=myCluster[10-16] myScript.sh 然而，此参数使slurm等待，直到提交的作业终止，因此留下3个节点完全未使用，并且根据任务(多线程或单线程)，当前活动节点在CPU能力方面也可能处于低负载下。强制slurm在指定节点上同时运行多个作业的sbatch的最

浏览 1提问于2014-10-06得票数 28

回答已采纳

1回答

slurm，作业分配的CPU比请求的多

下面是conf文件： # slurm.conf file generated by configurator easy.html. # Put this file on all nodes of your cluster. # See the slurm.conf man page for more information. # ControlMachine= hoffmann ##ControlAddr= # #MailProg=/bin/mail MpiDefault=none #MpiParams=ports=#-# ProctrackType=proctrack/pgid Return

浏览 1提问于2020-08-17得票数 0

1回答

如何根据作业id查找用于slurm作业的命令？

在使用sbatch file.slurm提交slurm作业后，您将获得一个作业ID。您可以使用squeue和sacct来检查作业的状态。但都不会返回作业的原始提交命令(sbatch file.slurm)。是否有一个命令可以显示提交命令，即sbatch file.slurm？我需要将作业I与我的提交命令链接起来。到目前为止，唯一的方法是将sbatch命令的返回值保存在某个地方。

浏览 8提问于2020-03-05得票数 0

2回答

任务工作者被困在SLURM队列中，直到主任务到达墙面时间才会开始

、、

最近，我一直在尝试用Dask在一个使用SLURM调度器的HPC集群上做一些机器学习工作。重要的是，在这个集群上，SLURM被配置为每个作业24小时的硬墙时间限制。最初，我只使用一个worker来运行代码，但是我的作业内存不足。我试图增加工作进程的数量(因此，也增加了请求节点的数量)，但工作进程被困在SLURM队列中(原因是这种队列被标记为“优先级”)。与此同时，主人会跑起来，最后撞到墙上的时间，留下工人们在他们最终开始的时候死去。考虑到问题可能是我请求了太多的SLURM作业，我尝试将工人压缩到一个单一的、多节点作业using a workaround I found on github中

浏览 62提问于2021-09-13得票数 0

回答已采纳

1回答

SLURM和连续作业

、、

我尝试使用SLURM设置连续的作业，但失败了。在当前作业结束时，我成功地为下一个作业创建了文件夹和输入文件。我也可以转到该文件夹，但当我提交它时，立即停止。该作业被提交，但随后什么也没有发生，它只是停止，没有任何错误消息。下面是我是如何进行的： cp CONFIG.OUT ../$NEXT_DIR/CONFIG.INI cd ../$NEXT_DIR pwd sbatch run.npt 有人知道如何从SLURM脚本提交SLURM作业吗？我可以用LSF做到这一点。谢谢, 埃里克。

浏览 0提问于2015-04-02得票数 1

1回答

Slurm:如何重新启动失败的工人作业

、、

如果在slurm集群上运行数组作业，如何重新启动失败的工人作业？在Sun引擎队列中，可以将#$ -r y添加到作业文件中，以指示如果作业失败，应该重新启动作业--此标志的Slurm等效于什么？

浏览 2提问于2018-06-02得票数 1

回答已采纳

1回答

如何在设置工作目录之前为Slurm作业创建一个新目录？

、、、

我想为我运行的每个Slurm作业创建一个唯一的目录。然而，mkdir似乎中断了SBATCH命令。当我试着： #!/bin/bash #SBATCH blah blah other Slurm commands mkdir /path/to/my_dir_$SLURM_JOB_ID #SBATCH --chdir=/path/to/my_dir_$SLURM_JOB_ID touch test.txt ...the Slurm执行忠实地在/path/to/my_dir_$SLURM_JOB_ID创建目录，但跳过--chdir命令，并从调用批处理的工作目录执行--chdir脚本。是否有方法为

浏览 1提问于2020-12-10得票数 2

回答已采纳

1回答

在使用furrr函数时，是否有一种修改分配给期货的集群资源的方法？

、、

为了在slurm-managed远程机器上运行代码，我在R脚本中使用了未来的、和furrr包。在定义未来的拓扑结构时，我将一个模板文件传递给future.bacthtools::batchtools_slurm()，并使用resources =参数定义slurm作业的计算资源。然后，当我运行furrr::future_pwalk()函数时，每个未来都使用相同的资源(即我在batchtools_slurm()中定义的资源)进行评估。是否有一种方法让作业使用不同的资源，取决于传递给furrr::future_pwalk()的变量提前感谢您的帮助！

浏览 7提问于2020-10-30得票数 3

1回答

如何限制slurm的cpu使用率？

因此，我在2台笔记本电脑(2个节点)上运行slurm作业，我注意到这两台笔记本电脑都变得非常迟钝，以至于鼠标甚至不能移动。当我使用htop时，我发现作业使用了4个内核，使用率为100%。我确信这个作业不会占用太多的cpu资源。如何使slurm只使用所需的cpu能力？

浏览 29提问于2021-05-27得票数 0

回答已采纳

2回答

在SLURM中为每个任务预留内存

我们使用SLURM管理计算集群上的作业调度，并且在内存管理方面遇到了问题。具体来说，我们无法找到如何为特定任务分配内存。考虑以下设置：每个节点都有32 has内存。我们有一个设置--mem=24GB的SLURM作业现在，假设我们想同时运行该SLURM作业两次。然后，我期望(或希望)发生的是，当我通过两次调用sbatch runscript.sh对其进行两次排队时，两个作业中的一个将在一个节点上运行，另一个将在另一个节点上运行。但是，与目前的情况一样，SLURM将两个任务安排在同一个节点上。我们发现的可能原因之一是，它似乎只检查24 by的内存是否可用(即，其他节点没有

浏览 5提问于2017-09-27得票数 2

回答已采纳

1回答

SLURM是否可以在完成任何作业时触发脚本(由前端-SLURM用户实现)？

正如我们所知，SLURM可以在工作完成后发送电子邮件。此外，类似于作业完成后的邮件机制：当任何作业完成时，SLURM能触发脚本(由前端-SLURM用户实现)吗？示例解决方案:这将迫使我让while()检查并等待提交的作业已经完成。这可能会占用额外的CPU使用量。 jobID=$(sbatch -U user -N1 run.sh | cut -d " " -f4-); job_state=$(sacct -j $jobID --format=state | tail -n1 | head -n1) while [ $job_state != $completed ] d

浏览 4提问于2017-04-17得票数 3

回答已采纳

1回答

在Slurm中按JOBID排序作业

在Slurm中，我希望通过按照用户的JOBID升序排序来squeue给定用户的作业。我试过了 squeue -u username --sort=+JOBID 但它不起作用。你有什么想法吗？

浏览 3提问于2017-03-14得票数 5

回答已采纳

1回答

在集群修改后还原$0或$BASH_SOURCE

、、、

我正在使用共享SLURM集群。我试图从脚本本身中获取bash脚本的路径。这里已经有一个很好的线程：https://stackoverflow.com/questions/59895/get-the-source-directory-of-a-bash-script-from-within-the-script-itself。不幸的是，这些解决方案都不适合我。当我正常执行bash脚本时，它们会工作，但当我将脚本作为作业提交时，它们就不能工作了。我试过$BASH_SOURCE，$0，$_和readlink /proc/$/fd/255。它们都返回类似于/cm/local/apps/slurm/v

浏览 0提问于2019-02-05得票数 3

回答已采纳

1回答

使用批处理脚本提交作业Slurm

、、、

我试图通过SLURM提交作业，但通过S批处理包含SLURM命令，因此使用了批处理脚本。我创建的脚本确实提交了slurm作业，但也包含了其他我不确定它们来自何处的作业(见下文)；特别是作业中的.bat和.ext。任何关于正在发生的事情的洞察力都将受到赞赏。我用以下内容创建了一个测试脚本：批处理脚本(script.sh) #! /bin/bash # #SBATCH --job-name="slurm_test" #SBATCH --output=sbatch.out #SBATCH --partition=xfr #SBATCH --gres=tmpspace:2G #SBA

浏览 1提问于2021-05-11得票数 0

3回答

运行多个类似的作业文件(批处理)

、、

我试图使用sbatch使用slurm运行多个(数百个)非常类似的作业文件。我的.job文件看起来像： #SBATCH ... ... ... srun ./someProg -a A -b B -c C -d D 是否有任何方便的方法来使用sbatch提交作业文件，为A/B/C和D提供多个选项，并为A/B/C/D的每一个组合生成一个新作业，而不只是生成数百个.job文件？(我已经在slurm文件中看到了很多数组，但我不认为它对我有帮助。)

浏览 5提问于2021-12-18得票数 1

回答已采纳

1回答

在文件输出中使用SBATCH作业名作为变量

、

使用SBATCH，您可以使用%j使用以下语法在自动生成的输出文件中使用作业id： #!/bin/bash # omitting some other sbatch commands here ... #SBATCH -o slurm-%j.out-%N # name of the stdout, using the job number (%j) and the first node (%N) #SBATCH -e slurm-%j.err-%N # name of the stderr, using job and first node values 我一直在寻找一个类似的语法，用于使用作

浏览 0提问于2018-05-08得票数 6

回答已采纳

2回答

Slurm AccountingStorageEnforce=associations没有效果

我正在使用slurm和slurmdbd (使用MySQL)管理集群我在/etc/slurm/slurm.conf中设置了以下选项 AccountingStorageEnforce=associations 我已经重新加载了配置： scontrol reconfig 我在sacctmgr中配置了一些关联。问题是，我仍然可以使用不存在的slurm用户提交作业。我对选项AccountingStorageEnforce=associations的理解是，非现有用户没有提交作业的权限。

浏览 0提问于2013-03-22得票数 1

回答已采纳

1回答

无法在同一台机器上的Ubuntu 18.04上使用SLURM运行并行作业

似乎我不能在同一个节点上运行并行作业。我已经在一台机器(Ubuntu18.04 CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=15976)上设置了SLURM，以便与Kaldi一起使用。为了测试我是否可以并行执行作业，我使用了一个简短的python代码片段： #!/usr/bin/env python # demo.py: # usage: python demo.py [job-number] import sys import socket from time import s

浏览 30提问于2019-10-30得票数 1

1回答

如何在DASK中批量调度dask_jobqueue作业而不是并发？

根据我对Dask-Jobqueue (https://jobqueue.dask.org/en/latest/)的阅读，以及在我们的SLURM集群上的测试，似乎当您设置cluster.scale(n)并创建client = Client(cluster)时，在您的作业的所有n都能够启动之前，没有一个作业能够启动。假设您有999个作业要运行，一个集群有100个节点或插槽；更糟糕的是，假设其他人共享该集群，其中一些人可能有长期运行的作业。管理员有时需要对一些节点进行维护，因此他们会添加和删除节点。你永远不知道你能得到多大的并行性。您希望集群调度程序只接收999个作业(在slurm中，这些作业将

浏览 30提问于2019-05-15得票数 0

5回答

限制SLURM中运行的作业数

、

我在SLURM排队做多个工作。我可以限制slurm中并行运行作业的数量吗？提前感谢！

浏览 2提问于2017-03-15得票数 17

回答已采纳

1回答

SLURM需要GPU资源请求

是否有一种方法要求作业具有--gres=gpu:X对S批处理和运行作业提交？要么让作业需要该标志，要么设置每个作业(如DefMemPerNode )的默认gpus数。我的slurm.conf当前设置为 SchedulerType=sched/backfill SelectType=select/cons_res SelectTypeParameters=CR_Core 我们希望用户总是定义gpu预订。如果没有办法通过slurm配置，是否有办法强迫gpu使用仅通过slurm，并防止访问gpu而不提交作业？

浏览 4提问于2022-02-15得票数 0

1回答

Slurm作业已排队但未运行

我正在尝试在运行Ubuntu的Virtualbox上安装slurm。我们使用它通过web界面运行长时间运行的作业，并使用slurm对作业进行排队和运行。我正在使用VirtualBox为开发创建一个沙箱。我已经设置了slurm，但是当我将一个作业排入队列并运行squeue时，我得到： $ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 2 debug test.sh pchandle PD 0:00

浏览 729提问于2021-10-14得票数 2

回答已采纳

1回答

在用于mpi作业的节点srun上运行bash脚本

、

我可以使用slurm批处理脚本和srun跨多个计算节点启动mpi作业。作为slurm脚本的一部分，我希望启动一个shell脚本，该脚本在作业使用的节点上运行，以收集有关在该节点上运行的作业任务的信息(使用top命令)。我希望shell脚本在节点级别运行，而不是在任务级别运行。shell脚本只在单个计算节点上运行得很好，对于使用单个计算节点的作业，我可以将其作为slurm脚本的一部分在后台运行。但是还不清楚如何使用srun让它在多个计算节点上运行。我尝试在slurm批处理脚本中使用多个srun命令，但shell脚本仅在计算节点上启动。

浏览 0提问于2020-04-14得票数 0

1回答

SLURM不遵循请求的资源。

、

我有一个名为“test.sub”的提交脚本： #!/bin/bash #SBATCH --workdir=./ #SBATCH -o test.out #SBATCH --partition=debug #SBATCH --nodes=1 #SBATCH --ntasks=1 #SBATCH --requeue #SBATCH --job-name=test x=0 while [ $x -le 100 ]; do echo "Test $x" >> test.out sleep 100 x=$(($x+1)) done 当我提交这个作业脚本时

浏览 2提问于2018-03-28得票数 2

回答已采纳

3回答

如何在slurm作业(从srun开始)完全完成之前保持脚本？

、

我使用SLURM运行一个作业数组，并使用下面的作业数组脚本(我是用sbatch job_array_script.sh [args]运行的) #!/bin/bash #SBATCH ... other options ... #SBATCH --array=0-1000%200 srun ./job_slurm_script.py $1 $2 $3 $4 echo 'open' > status_file.txt 为了解释，我希望job_slurm_script.py作为数组作业运行1000次，最多并行200个任务。当所有的都完成时，我想写“打开”给status_

浏览 3提问于2017-09-26得票数 8

回答已采纳

1回答

将参数传递到slurm脚本(matlab)

、、、

我正在使用slurm向大学超级计算机提交工作。我的matlab函数有一个参数：功能测试(Variable_1) 我的slurm文件是(我不确定它是否正确)。我知道如何在slurm文件中定义参数的值，但是我想将该值传递给slurm文件，因为我需要使用参数的不同值多次运行matlab函数)： #!/bin/bash -l #SBATCH --time=2-00:00:00 #SBATCH --job-name="test" #SBATCH --nodes=1 #SBATCH --ntasks=1 #SBATCH --mem=4gb #SBATCH -p small

浏览 8提问于2022-02-27得票数 1

回答已采纳

1回答

如果分区的默认时间限制不够，如何在SLURM中运行更长的作业？

、、

我在linux集群中提交了我的作业(使用SLURM调度作业)，但每个分区的时间限制只有24小时(实际上这个限制是由管理员设置的)，而且我的代码似乎需要运行一周以上(根据我的猜测)。我是SLURM脚本的新手，对以下内容之间的相互作用略知一二： #SBATCH --nodes= #SBATCH --ntasks-per-node= #SBATCH --ntasks= #SBATCH --ntasks-per-core= 我正在寻找方法，以避免时间限制，同时提交作业和运行我的完整作业。我们非常感谢您的建议。

浏览 1提问于2021-04-23得票数 2

1回答

Slurm节能插件

我为Slurm写了一个节能插件，这样我就可以和云提供商一起使用Slurm了。我分配的节点可以同时运行多个作业。假设我可以运行10个作业/节点。目前，如果我请求一个作业，它会启动一个节点(创建一个云VM)。如果我立即请求第二个作业，Slurm将启动第二个节点。我希望Slurm仅在当前通电的第一个节点不能处理新作业的情况下才给第二个节点通电。否则，将新作业也分配给当前通电的节点。这可以通过配置来实现吗？非常感谢！

浏览 1提问于2018-04-13得票数 0

1回答

如何保存SLURM作业配置？

、、

假设我使用以下配置运行slurm作业： #!/bin/bash #SBATCH --nodes=1 # set the number of nodes #SBATCH --ntasks=1 # Run a single task #SBATCH --cpus-per-task=4 # Number of CPU cores per task #SBATCH --time=26:59:

浏览 2提问于2018-02-18得票数 1

回答已采纳

1回答

Slurm数组为同一任务生成多个任务

、、、

因此，我有一个使用多处理的python脚本，它有4种运行方式，这取决于它在运行时读取的环境变量APP_TYPE。因此，我使用slurm --array使其并行。问题是，它没有生成4个作业，每个作业都有自己的任务(使用所有节点核在A/B/C/D模式下运行python脚本)，而是每次任务产生次数。也就是说，我运行sbatch batch.sh，它在每个作业中产生4个任务。请注意，我期待着在每个节点上运行每个作业一次，这样我就可以在多处理中使用节点的所有核心(在本例中，每个节点有28个核心)。运行S批处理后，我得到消息：Submitted batch job 11200，我可以看到4个日志文件：

浏览 1提问于2021-05-28得票数 0

1回答