在我的计算节点上启动服务时,我面临的问题是.
×slurmd.service - Slurm节点守护进程
加载: loaded (/usr/lib/systemd/system/slurmd.service;已启用;供应商预置:禁用)自Wed 2022-10-12 04:10:25 EDT以来活动(结果:退出代码);7s前进程: 5839 ExecStart=/usr/sbin/slurmd -D -s $SLURMD_OPTIONS (code=exited,status=1/FAILURE)主PID: 5839 (code=exited,status=1/FAILURE) CPU: 3MSOct 1204:10:25 compute1.ghpcv3.au.dk systemd1:已启动Slurm节点守护进程。10月12日04:10:25 compute1.ghpcv3.au.dk systemd1: slurmd.service:主进程退出,code=exited,status=1/FAILURE 10月12 :10:25 compute1.ghpcv3.au.dk systemd1: slurmd.service: FAILURE和结果‘退出代码’。
#slurmd -D -vv slurmd:调试:日志文件重新打开slurmd:调试: CPUs:1板:1套接字:1 CoresPerSocket:1 ThreadsPerCore:1 slurmd:错误:未能为cgroup/v2找到指定的插件名称slurmd: error:无法找到cgroup/v2 slurmd的cgroup插件: error:无法为cgroup/v2 slurmd创建cgroup上下文:错误:无法初始化cgroup plugin : error: slurmd初始化失败
我错过了什么?
发布于 2022-10-26 17:38:12
您可能必须在slurm配置目录cgroup.conf
https://stackoverflow.com/a/65226055/5749775中手动创建https://stackoverflow.com/a/65226055/5749775。
我通过创建一个相当简单的conf来修复这个问题:
# /etc/slurm-llnl/cgroup.conf
CgroupAutomount=yes
# CgroupReleaseAgentDir="/etc/slurm/cgroup"
ConstrainCores=yes
ConstrainDevices=yes
# TaskAffinity=yes
ConstrainRAMSpace=yes
# ConstrainSwapSpace=yes
MaxRAMPercent=98
AllowedSwapSpace=0
AllowedRAMSpace=100
MemorySwappiness=0
https://stackoverflow.com/questions/74038679
复制相似问题