首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >无法将SLURM作业发送到远程连接的集群

无法将SLURM作业发送到远程连接的集群
EN

Stack Overflow用户
提问于 2022-03-17 20:03:33
回答 1查看 202关注 0票数 1

我正在创建一个SLURM多集群设置,在前提条件上有一个slurmdbd MariaDB数据库,以及Oracle中的一些slurmctld数据库,这些数据库都是用来接收来自on集群的作业的。到目前为止,我已经将云中的slurmctld连接到数据库中。它们出现在"sacctmgr列表集群“上,我能够接收到关于它们的信息,并从on-pre前提slurmctld中删除队列中的作业。但是,我无法将任务从前提集群发送到这些云集群。当我尝试使用-M或-M all将作业提交给其他集群时,它们反而在前提队列上运行。云集群能够使用S批处理直接运行提交给它们的作业。

当我提交作业时会出现一个错误。应该在集群的/var/log/slurmctld.log中接收作业:

代码语言:javascript
运行
复制
[2022-03-17T19:15:41.046] Registering slurmctld at port 6817 with slurmdbd <IP_ADDRESS>:<PORT>
[2022-03-17T19:15:41.046] error: slurmdbd: Sending message type DBD_REGISTER_CTLD: 11: Resource temporarily unavailable
[2022-03-17T19:15:46.046] error: g_slurm_auth_pack: protocol_version 6500 not supported
[2022-03-17T19:15:46.046] error: slurm_send_node_msg: authentication: No error
[2022-03-17T19:15:46.046] error: slurm_persist_conn_open: failed to send persistent connection init message to <IP_ADDRESS>:<PORT>

我确认IP地址和端口是正确的,并连接到slurmdbd,但是其余的意味着什么?我找不到任何文档,这个问题似乎没有出现在其他论坛在过去。我应该怎么做才能把工作真正送到这些集群呢?

EN

回答 1

Stack Overflow用户

发布于 2022-03-21 10:44:30

我也遇到了同样的问题,正好相反:我无法将工作发送给OCI Slurm实例。

对我来说,问题是: OCI Slurm是一个slurmdb20.11,我的前提slurmctld是21.08。问题是,slurmdbd必须与slurmctld相同或更新,然后是slurmctld(在最多3个版本内)和其余的二进制文件。参见幻灯片这里 (节升级)。

升级OCI Slurm实例后,我可以双向提交。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71518378

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档