腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
向
正在
运行
的
slurm
作业
添加
时间
slurm
我有一个
运行
由
slurm
管理
的
linux机器
的
工作。现在
作业
已经
运行
了几个小时,我意识到我低估了完成
作业
所需
的
时间
,因此我指定
的
--time参数
的
值是不够
的
。有没有一种方法可以通过
slurm
为现有的
运行
作业
增加
时间
?
浏览 2
提问于2015-02-09
得票数 79
回答已采纳
1
回答
仅使用一个GPU时,
SLURM
作业
会占用整个节点
slurm
我
正在
向
SLURM
队列提交多个
作业
。每个
作业
使用1个GPU。每个节点有4个GPU。然而,一旦
作业
开始
运行
,它就会占用整个节点,留下3个空闲
的
GPU。有没有办法避免这种情况,这样我就可以
向
一个节点发送多个
作业
,每个节点使用一个GPU?我
的
脚本如下所示:#
SLURM
--ntasks-per-node 1 #
SLURM
浏览 2
提问于2018-03-21
得票数 3
1
回答
更改外部
SLURM
变量
的
值
bash
我
正在
运行
一个bash脚本,使用
SLURM
在Linux集群上
运行
作业
。脚本
的
相关部分如下所示(
slurm
.sh):#SBATCH --mail-type=ALL我从另一个脚本(ext.sh)调用此脚本,该脚本
的
一部分如下所示/bin/bash source
s
浏览 2
提问于2014-05-30
得票数 0
1
回答
Slurm
新工作节点
cluster-computing
、
slurm
、
hpc
我希望构建一个自动创建和删除节点
的
集群环境。
作业
将使用
Slurm
分发到各个节点。两个问题: 是否为
Slurm
工作人员设置了一个代理或类似的代理,以便节点自动向头节点注册?可以在
运行
时更改
Slurm
配置文件吗?(因为可以
添加
或删除新
的
工作节点)。
浏览 6
提问于2022-03-21
得票数 0
1
回答
如何使用
SLURM
通过CUDA在GPU网格上
运行
多个
作业
simulation
、
hpc
、
slurm
我一直致力于使用CUDA加速
作业
的
处理
时间
。通常这将是相当简单
的
,但是我遇到了一个相当有趣
的
问题。我们
正在
使用
slurm
来调度我们
的
作业
,通过
添加
CUDA代码并启用编译,它将单个
作业
的
时间
减少了一半。在查看GPU上
的
负载时会出现此问题。在启用CUDA之前,我们可以在每个节点上
运行
6个
作业
。但是,启用CUDA后,
浏览 0
提问于2018-08-16
得票数 1
回答已采纳
1
回答
修改mesos代理以
添加
动态更改
的
自定义资源
mesos
、
mesosphere
我
正在
开发一个新
的
mesos-
slurm
框架,其中来自外部
的
作业
也可以被推送到
slurm
队列中。 更新,以更好地解释问题:mesos代理在HPC中编排
作业
的
同一台计算机上安装了
slurm
。这个
Slurm
既可以从mesos执行器接收
作业
,也可以从其他方法接收
作业
(例如,第三方用户通过ssh将
作业
直接发送给
slurm
)。因此,我希望代理在
向
浏览 3
提问于2017-02-01
得票数 2
1
回答
进程
的
最大超时
centos
、
timeout
、
slurm
基本上,它在队列未满时提交
slurm
作业
,并且在此过程中可以等待一段
时间
。 脚本导致不完整
的
结果,使我认为有一个最大
的
执行
时间
。这种默认超时真的存在吗?如果是的话,我怎样才能重置到无限
的
时间
?
浏览 0
提问于2018-10-05
得票数 0
4
回答
Slurm
作业
,知道它在哪个节点上
bash
、
slurm
在bash/
slurm
中是否有一种方法可以让脚本知道它
运行
在哪个节点上?sstat是这样做
的
,但是我需要知道我
的
工作id是什么,脚本似乎也不知道这个id(或者至少我还没有找到它)。
浏览 7
提问于2017-05-12
得票数 4
回答已采纳
1
回答
我
的
回填
作业
如何知道调度程序为它分配了多少
时间
?
slurm
我有一个应用程序,它接受一个命令行参数,告诉它已经分配了多少
时间
。然后,应用程序在方便
的
时间
点对自身设置检查点,并在指定
的
时间
量之前退出。我
正在
启动工作, sbatch --time=240 --time-min=60 如何在我
的
run.sub文件中找出调度程序为我
的
作业
分配了多少
时间
?我假设会有一个环境变量来告诉我
时间
分配,就像$
SLURM
_JOB_NUM_NODES告诉我已经分
浏览 22
提问于2021-08-06
得票数 0
1
回答
如果分区
的
默认
时间
限制不够,如何在
SLURM
中
运行
更长
的
作业
?
mpi
、
hpc
、
slurm
我在linux集群中提交了我
的
作业
(使用
SLURM
调度
作业
),但每个分区
的
时间
限制只有24小时(实际上这个限制是由管理员设置
的
),而且我
的
代码似乎需要
运行
一周以上(根据我
的
猜测)。我是
SLURM
脚本
的
新手,对以下内容之间
的
相互作用略知一二:#SBATCH --ntasks-per-node=
浏览 1
提问于2021-04-23
得票数 2
2
回答
Slurm
数组
作业
,每个节点最多有一个并发
作业
cluster-computing
、
slurm
问题(你感兴趣
的
原因:我无法控制复杂
的
工作安排。每个
作业
都在硬编码端口上启动一堆服务器。如果在一个节点上同时
运行
这些冲突:-/ (是的,我知道,不要告诉我)。ntasks-per-node=1 -- \ bash -c '\''
浏览 6
提问于2021-06-20
得票数 2
回答已采纳
1
回答
在已经登录
的
节点上
运行
slurm
作业
slurm
是否可以在已经登录到集群节点上
的
节点上
运行
slurm
作业
?假设我已经登录了节点:casade02这样我就不用排队了。如果这很重要,我可以将ssh转换到特定
的
节点中,比如ssh user@casacde01。然后,我可以登录到我指定为“head”节点
的
节点,然后说,‘好
的
,在casacde02和casacde03上
运行
这段代码吗?’ 我在看这个stackexchange帖子,它给出了S批处理
的
-w
浏览 0
提问于2022-10-03
得票数 1
1
回答
将
slurm
设置为在nextflow中跨节点分发
作业
。
jobs
、
slurm
、
nextflow
我
正在
运行
一个3节点集群上
的
nextflow管道。当我通过
slurm
运行
管道时,它会创建大量
的
作业
,我通过使用executor.queueSize =X指令来限制这些
作业
。然而,
slurm
所做
的
是使节点1饱和,然后饱和节点2,然后开始
向
节点3发送
作业
,我希望它能更均匀地分配
作业
列表。我尝试了许多
slurm
命令,包括--
浏览 18
提问于2022-07-14
得票数 2
回答已采纳
1
回答
是否有可能在
SLURM
中请求更多
的
时间
来
运行
作业
?
jobs
、
slurm
我知道在排队
的
作业
上可以通过scontrol更改指令,例如这只在某些情况下起作用,取决于
slurm
实例
的
管理配置因此,没有回答我
的
问题。 我
正在
寻找
的
是一种方法,要求
SLURM
为
运行
中
的
作业
增加更多
的
时间
,如果资源可用,即使它已经在
运行
。有点像嵌套<
浏览 0
提问于2019-08-22
得票数 1
1
回答
限制
slurm
中并行
作业
数量
的
效率
performance
、
parallel-processing
、
jobs
、
slurm
我
的
问题是基于问题。 我应该考虑使用--array=0-60000%200来限制
slurm
中并行
运行
的
200个
作业
的
数量。在我看来,每次一份旧工作完成,就需要花上一分钟
的
时间
去吃午饭--一份新工作。考虑到我计划
运行
的
工作数量,我可能会以这种方式浪费大量
时间
。我编写了一个“最可能
的
”非常低效
的
替代方案,包括一个启动
作业
的
脚本,检查
浏览 1
提问于2019-01-19
得票数 1
回答已采纳
1
回答
Slurm
作业
已排队但未
运行
slurm
我
正在
尝试在
运行
Ubuntu
的
Virtualbox上安装
slurm
。我们使用它通过web界面
运行
长
时间
运行
的
作业
,并使用
slurm
对
作业
进行排队和
运行
。我已经设置了
slurm
,但是当我将一个
作业
排入队列并
运行
squeue时,我得到: $ squeue JOBID PARTITION NAME
浏览 729
提问于2021-10-14
得票数 2
回答已采纳
3
回答
如何在
SLURM
中查找提交
作业
的
位置?
linux
、
hpc
、
slurm
我通过
SLURM
向我们学校
的
HPC集群提交了几个工作。因为所有shell脚本都具有相同
的
名称,所以
作业
名称看起来完全相同。RUNNING 0:0 如何知道
作业
是从哪个目录提交
的
,以便区分
作业
?
浏览 0
提问于2014-07-05
得票数 15
回答已采纳
1
回答
如何立即将所有Snakemake
作业
提交给
slurm
集群
python
、
bioinformatics
、
pipeline
、
slurm
、
snakemake
我
正在
使用snakemake构建一个可以在
SLURM
集群上
运行
的
可变调用管道。集群有登录节点和计算节点。任何真正
的
计算都应该以srun或sbatch
作业
的
形式在计算节点上完成。
作业
仅限于48小时
的
运行
时。我
的
问题是,处理许多样本,特别是当队列繁忙时,需要超过48个小时来处理每个样本
的
所有规则。传统
的
snakemake集群执行只在规则
的
所有依赖项完
浏览 0
提问于2019-12-30
得票数 5
回答已采纳
1
回答
Cgroup和
Slurm
slurm
、
cgroups
我知道如何使用cgroups(分配内存、cpu使用率...)和
slurm
(提交、挂起/停止
作业
)。我想知道cgroups是如何使用
slurm
的
。当我
向
slurm
提交
作业
时,我可以在哪里修复内存或CPU使用率?我阅读了
Slurm
Schedmd()
的
文档,但它没有给出很好
的
解释。也许这是对我
的
误解。谁能解释一下如何使用
slurm
中
的
cgroup为
作
浏览 4
提问于2017-05-22
得票数 3
1
回答
Slurm
:如何重新启动失败
的
工人
作业
hpc
、
slurm
、
sungridengine
如果在
slurm
集群上
运行
数组
作业
,如何重新启动失败
的
工人
作业
? 在Sun引擎队列中,可以将#$ -r y
添加
到
作业
文件中,以指示如果
作业
失败,应该重新启动
作业
--此标志
的
Slurm
等效于什么?
浏览 2
提问于2018-06-02
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
这个号的粉丝正在申请转移,后期这个号就用不了了,请大家抓紧时间添加我私人微信公众号
PyTorch 并行训练 DistributedDataParallel完整代码示例
K8S 1.26 这个新特性,支持大规模并行批处理工作负载
Python定时任务(下)
你真的理解多程序,多任务,多线程和多处理之间的区别吗?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券