以用户身份获取SLURM集群中允许的最大作业数_如何在Slurm中设置每个作业允许的最大CPU数？ - 腾讯云开发者社区

slurm

我在一个基于Slurm的集群上工作，我想知道是否有一个命令(或一个要查看的配置文件)可以让我以用户身份运行，以了解允许我同时运行的最大作业数(我在Slurm文档中找不到它)。有这样的命令吗？

浏览 109提问于2020-05-03得票数 1

回答已采纳

3回答

Slurm，限制每个分区的作业数。

scheduler

我正在配置Slurm调度程序，我需要限制分区(队列)上并发运行的最大作业数。也就是说，我有两个分区，短的和长的，具有相同的计算节点，但是有不同的时间限

浏览 0提问于2014-07-11得票数 1

1回答

限制slurm中并行作业数量的效率

performance、parallel-processing、jobs、slurm

我的问题是基于问题。我应该考虑使用--array=0-60000%200来限制slurm中并行运行的200个作业的数量。在我看来，每次一份旧工作完成，就需要花上一分钟的时间去吃午饭--一份新工作。考虑到我计划运行的工作数量，我可能会以这种方式浪费大量时间。我编写了一个“最可能的”非常低效的替代方案，包括一个启动作业的脚本，检查队列中的<

浏览 1提问于2019-01-19得票数 1

回答已采纳

1回答

在slurm脚本中启动奇点

slurm

我已经在/usr/local/bin上安装了奇异点，并希望从我的linux集群上的slurm中启动奇异点，但是我一直收到以下错误："error:/var/spool/slurm/d/job01485/slurm_script:第21行:奇点:命令未找到“ 我的路线正确吗？下面是我的slurm脚本的重要

浏览 0提问于2018-02-07得票数 0

1回答

带有LDAP的Linux集群，在多台机器上自动同时创建homedir

linux、ldap、cluster、pam、home-directory

我正在设置一个计算机集群的(20+)机器，我有一个工作的中央ldap服务器，用于对用户进行身份验证，并在集群中保持GID和UID同步。我不确定用哪种最优雅的方法来做这件事，除非有一个.sh脚本有20+ ssh命令配置某种PAM巫毒来完成此操作有一个cron作业为LDAP目录中的每个用户创建一个原因:我们正在运行S

浏览 0提问于2018-05-16得票数 1

1回答

对于某些账号，普通用户和sacctmgr创建的用户有什么区别？

slurm、sacct

在我们的集群中，有一些用户(在/etc/passwd中列出)可以使用Slurm提交作业。但是，使用sacctmgr，我们还可以定义属于某些帐户的用户。谢谢。

浏览 2提问于2020-06-19得票数 0

1回答

如何在Slurm中设置每个作业允许的最大CPU数？

slurm

如何在Slurm中设置每个作业可以请求的最大CPU数量？我们正在运行GPU集群，并希望有合理数量的CPU始终可用于GPU作业。但这并不会阻止不要求任何GPU的作业不获取系统中的所有CPU。

浏览 126提问于2020-03-30得票数 0

1回答

在批处理中使用数组和节点列表

matlab、slurm

由于Matlab将如何利用计算集群上的资源的局限性，我想创建几个作业，每个作业都使用给定节点上的所有核心。我可以结合其他参数使用-数组选项来确保在一个单独的节点上得到每个作业。但是，出于某种原因，我们集群上的slurm计划将我的作业放在已经在使用的节点上，即使我试图使用-c选项来最大化给定节点上的核心： #SB

浏览 1提问于2014-09-03得票数 1

回答已采纳

1回答

如何在DASK中批量调度dask_jobqueue作业而不是并发？

dask

根据我对Dask-Jobqueue (https://jobqueue.dask.org/en/latest/)的阅读，以及在我们的SLURM集群上的测试，似乎当您设置cluster.scale(n)并创建client = Client(cluster)时，在您的作业的所有n都能够启动之前，没有一个作业能够启动。假设您有999个作业要运行，一个集群有

浏览 30提问于2019-05-15得票数 0

1回答

Snakemake:如何实现将输入/输出文件复制到/从tmp文件夹并在那里应用规则的机制

hpc、slurm、snakemake、tmp

我们使用Slurm工作负载管理器向我们的高性能集群提交作业。在作业运行时，我们需要将输入文件从网络文件系统复制到节点的本地文件系统，在那里运行我们的分析，然后将输出文件复制回网络文件系统上的项目目录。虽然工作流管理系统Snakemake与Slurm集成(通过定义概要文件)并允许以Slurm作业的形式运行工作流中的</em

浏览 0提问于2020-03-19得票数 3

1回答

如何创建Slurm分区

linux、ubuntu、cluster-computing、slurm、hpc

我试图构建一个集群，但我被困在slurm分区部分。我确实创建了一个帐户和一个用户，但是我不知道如何创建一个分区来将其分配给一个帐户。我使用的是光明计算，所以它会自动安装SLURM并创建一个名为defq的分区。如果有人有一个创建分区并将其分配给帐户的命令示例，这将是非常有用的。如果我有任何错误，请纠正我。谢谢

浏览 5提问于2022-07-18得票数 0

回答已采纳

1回答

向slurm提交大量工作的最佳实践

slurm、hpc

我需要向我们的集群提交几千个职位。每项工作大约需要六个小时才能完成。如果我使用所有可用的资源，这需要大约一周的时间。理论上，我可以这样做，但我会阻止所有其他用户一周。所以这不是一种选择。我有两个可能解决这个问题的想法：创建数组作业并限制运行作业的最大数量。我不喜欢这个选择，因为很多时候(晚上，周末等)没有人使用集群，我的作业不能一次使用这些未使用的</e

浏览 2提问于2021-07-30得票数 1

回答已采纳

1回答

为什么反复叫喊“贫民窟里的尖叫声”会让人皱眉头？

cluster-computing、slurm、sungridengine、lsf

为什么不建议在循环中运行squeue以避免重载Slurm，但是对于来自LSF的bjobs工具或来自SGE的qstat却没有提到这样的限制？如果来自squeue或其他Slurm客户端命令(将远程过程调用发送到slurmctld守护进程)的调用立即进入，则可能导致slurmctld守护进程的性能下降，可能导致拒绝服务。不要运行squeue或其他Slurm客户端命令，这些命令从shell脚本或其他程序中的循环中向slurm

浏览 4提问于2020-06-22得票数 5

回答已采纳

1回答

如何在Slurm中设置多因素优先级队列

slurm

我正在寻求帮助在Slurm中建立一个优先级队列，slurm_update_job(&job_update); 我尝试过将此代码放入/etc/slurm/slurm.conf中，但这没有任何作用。如果有人可以澄清的话之外，因为这没有给出关于如何在slurm内部实现的足够信

浏览 0提问于2019-03-14得票数 0

2回答

slurm中无效的作业数组规范

cluster-computing、slurm

我提交了一个玩具阵列作业在slurm。我的命令行是其中j1是脚本：echo job id is $SLURM_JOB_IDecho task id id $SLURM_ARRAY_TASK_ID(PRJ-1234)...OK sbatch: error: Bat

浏览 9提问于2015-02-26得票数 7

回答已采纳

1回答

使Hadoop以Kerberos用户身份运行

hadoop、mapreduce、hdfs、kerberos

在Kerberos中有一个名为"foo“的用户，hadoop集群受到Kerberos的保护。我想让hadoop集群以"foo“的身份运行作业，我该怎么做？什么配置允许hadoop客户端指定kerberos用户帐户名运行，就像hadoop集群'kinit username‘然后运行mapreduce作业一样？仅供参考，hadoop 2.

浏览 2提问于2015-11-03得票数 0

1回答

Snakemake WorkflowError:未能将作业组合在一起

slurm、snakemake

背景：我必须将我的Snakemake管道从一个节点的使用调整到一个具有资源管理的集群。使用特定于SLURM的Snakemake配置文件，我的规则成功地作为SLURM作业提交，因此我继续将Snakemake指令resources添加到每个非本地规则中，以优化队列调度。问题：我的管道有许多小的单CPU作业，我用Snakemake规则指令group绑定

浏览 5提问于2021-11-12得票数 0

回答已采纳

3回答

如何将作业提交到SLURM节点列表中的任意[子集]节点？

cluster-computing、batch-processing、slurm、sbatch

我有几千个作业要在一个有16个节点的SLURM集群上运行。这些作业只能在大小为7的可用节点的子集上运行。一些任务是并行化的，因此使用了单个节点的所有CPU能力，而其他任务是单线程的。因此，应该在单个节点上同时运行多个作业。任何任务都不应在多个节点上生成。目前，我提交的每个作业如下： sbatch --nodelist=myCluster[10-16] myScri

浏览 1提问于2014-10-06得票数 28

回答已采纳

1回答

为什么Slurm会在几秒钟后杀死一个特定用户的作业？

slurm

我管理一个由许多用户组成的Slurm集群，集群的操作对于所有用户来说都是“完全正常”的；除了一个用户。这个用户可以在20-25秒后通过Slurm执行命令。resources注意，当我以自己的身份运行srun --pty sleep 20时，srun不会输

浏览 38提问于2021-04-09得票数 2

1回答

有人对Smilei mpi任务很了解吗？

simulation

我试图通过OpenMP mpi(混合)在集群上运行Smilei模拟。但是在加载python之后，它在读取模拟参数时显示消息，如下所示。33m^[[;33m 在本例中，任务显示为使用squeue命令，但我在top上找不到作业，实际作业被暂停，就好像它无法从循环中逃脱一样。但是，当我在带有CPU的桌面WSL上运行相同<

浏览 9提问于2022-08-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云