学习
实践
活动
专区
工具
TVP
写文章
专栏首页自学气象人【科研利器】slurm作业调度系统(四)

【科研利器】slurm作业调度系统(四)

大家好哇!上一期我们介绍了作业脚本中两个非常重要的概念Partition 和 QoS 进行介绍,并给出一些实用技巧。今天呢,我们给出一些在slurm作业系统中常见的报错提示的含义及解决方法。

在我们实际操作过程中,最常见的一种情况就是我提交了作业却没有被运行。前面的教程【科研利器】slurm作业调度系统(一)中我们说过,超算集群上不只有我们在使用,还有很多的用户同时也在提交作业、运行程序。而超算上的计算资源却是有限的。所以当作业被提交以后,其能否运行会取决于用户申请的资源配置情况以及当前系统内计算资源被使用的情况。如果遇到了作业被提交但一直没能运行的情况,可以通过 squeue 命令来查看作业状态(该命令有很多可选参数,能帮助我们更快的掌握想知道的信息,详见【科研利器】slurm作业调度系统(二))。其中 NODELIST(REASON) 一栏包含很多非常有用的信息,在作业未运行时,它会显示未运行的原因;当作业在运行时,它会显示作业是在哪个节点运行的、运行了多长时间等信息。

北大超算指导手册中整理出了下面的表格,涵盖了常见作业未运行的原因(即 squeue 查询后 NODELIST 一栏的显示结果),用户可根据此来调整自己的脚本。其中的加粗部分表示异常原因,用户需要修改 slurm 脚本或联系管理员。这里需要注意的是,用户申请的资源超过当前 QoS 限制时,slurm作业调度系统会直接拒绝该任务。当申请的资源超过当前分区限制时,任务提交成功但是永远不会被运行。

除此以外,你可能还会遇到如下问题:

(1)

Q:我用sinfo查看任务提交的分区,显示idle(即存在空闲节点),但我的任务还在排队等待。

A:有两种可能的情况,一是排队在你前面的任务中有需要较大计算资源的,调度可能为它保留着部分计算资源。二是我们前面说过QoS的概念(详见【科研利器】slurm作业调度系统(三)),在队列中可能有需要占用多节点的高优先级任务正在等待资源,调度器会一定程度上为这些作业保留资源,以确保它们能够运行。

(2)

Q:提交任务后报错

Job submit/allocate failed: Invalidpartition name specified

A:报错显示你没有指定正确的partition。这可能是由于你并没有使用作业脚本中所指定分区的权限造成的,可以通过更改分区解决。

(3)
Q:提交任务后报错
QOSMaxWallDurationPerJobLimit

A:报错显示你所提交的任务时长超过了QoS允许的最大时长。所以需要修改作业脚本中的-t, --time=参数,以满足qos的时间限制。如果不知道所用qos对应的最大时长,可以通过以下命令进行查看。

sacctmgr show qos format=name,MaxWall
(4)
Q:提交任务后报错
batch job submission failed: Requested node configuration is not available

A:报错显示你所申请资源的节点配置不匹配,如该分区中每个节点只有32个核心,但是你在脚本中申请的单节点核心数超过32,就会报这个错误。所以仔细检查你的作业脚本,尤其是节点数、核心数、进程数之间的配置是否一致。

(5)
Q:提交任务后报错
QOS Not Allowed

A:报错显示没有指定正确的qos。可能是由于不同分区下能够使用的QoS有限制造成的。可以通过以下命令可以查看不同分区下可用的qos,在作业脚本在进行相应的修改。

sacctmgr show ass user=`whoami`  format=user,part,qos
(6)
Q:提交任务后报错
Account Not Allowed

A:哈哈哈,前面说过要节约计算资源,毕竟都是用钱买的。如果出现该错误的,通常都是账户里面没钱啦。当然,也有可能是账户被超算管理员封锁了。

(7)
Q:我的任务只需要20G的内存,在作业脚本中我申请了一个128G的节点,但是还是报错说内存不足。

A:这里需要注意节点与核心的关系。比如说一个节点有32个CPU核心,每个核心有4G的内存,那么这个节点就有128G的内存。如果你仅在该节点申请了1个核心,那么实际可使用的内存为4G。所以出现这个报错的时候,可以去作业脚本里面指定 #SBATCH --cpu-per-task 参数解决。

参考资料:

https://hpc.pku.edu.cn/_book/guide/slurm/sbatch.html

文章分享自微信公众号:
自学气象人

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:夏子涵
原始发表时间:2021-11-26
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 【科研利器】slurm作业调度系统(五)

    “ 大家好哇!上一期我们给出了一些在slurm作业系统中常见的报错提示的含义及解决方法。今天我们主要来看看如何在超算中配置运行环境。”

    自学气象人
  • 【科研利器】slurm作业调度系统(一)

    大家好哇!随着时代的不断发展,我们在做项目时所使用的数据也越来越大。当进行计算量很大的任务时,我们不可避免地会使用超级计算机(以下简称超算)来帮助我们完成。常见...

    自学气象人
  • 【科研利器】slurm作业调度系统(二)

    “ 大家好哇!前面我们对slurm作业调度系统进行了一个简单的介绍【科研利器】slurm作业调度系统(一),今天我们继续对如何用slurm提交批处理任务以及使用...

    自学气象人
  • 【科研利器】slurm作业调度系统(三)

    “ 大家好哇!上一期我们介绍了提交批处理任务的整个流程,包括查看资源、编写脚本、提交作业、查询作业信息等内容。今天呢,我们主要就作业脚本中两个非常重要的概念 P...

    自学气象人
  • CONQUEST 编译安装指南 Slurm 篇

      在实际的生产环境中,使用单用户模式直接运行命令的机会不是很多,通常是采用提交作业任务给集群计算的方式。这样一来既能节约资源和时间,又能申请到更大规模的计算资...

    zhonger
  • slurm学习笔记(一)

    中文文档:https://docs.slurm.cn/users/shou-ce-ye

    种花家的奋斗兔
  • Slurm学习笔记(二)

    scontrol show partition显示全部队列信息,scontrol show partition PartitionName或 scontrol ...

    种花家的奋斗兔
  • Slurm集群资源管理器的简单使用

    Slurm是一个开源,容错,高度可扩展的集群管理和作业调度系统,适用于大型和小型Linux集群。主要有三个功能:

    生信编程日常
  • 美国为何封杀中国超算!一文读懂超级计算机的应用、架构和软件知识

    2019年5月,美国商务部将华为列入了出口管制的“实体清单”,华为被推向了这波中美对抗的风口浪尖。紧随其后,6月,特朗普政府又对其他几家中国机构实行了限制出口政...

    PP鲁
  • SLURM使用教程

    我现在经常在实验室服务器上跑程序,而老师要求我们使用SLURM作业管理系统,网上资料零零散散,这篇文章算是一个简单的汇总

    mathor
  • 服务器集群任务调度系统大比拼!

    普通刀片节点配备 两颗 Intel(R) Xeon(R) CPU E5-2692 v2 @ 2.20GHz 共24物理核,内存为64G 调度系统为 Slurm...

    生信技能树
  • 西南交通大学铁路运输组织与优化郭孜政教授团队招募科研助理(长期招聘)

    西南交通大学 铁路运输组织与优化 郭孜政教授团队 招募科研助理(长期招聘) ✦✦ 郭孜政教授 西南交通大学交通运输与物流学院教授、博导,团队负责人。具有轨...

    用户1621951
  • 专栏 | 百度深度学习平台PaddlePaddle框架解析

    机器之心专栏 来源:百度PaddlePaddle PaddlePaddle 是 2016 年 8 月底百度开源的深度学习平台,并且在短时间内迅速引发全球开发热度...

    机器之心
  • 动态 | MSRA联合四大高校,共建新一代AI开放科研教育平台

    微软亚洲研究院联手北京大学、中国科学技术大学、西安交通大学和浙江大学四所国内顶级院校,共建新一代人工智能开放科研教育平台,成立仪式于5月22日在MSRA举行。

    AI科技评论
  • Volcano火山:容器与批量计算的碰撞

    Kubernetes 是当前非常流行的容器编排框架,在其发展早期重点以微服务类应用为主。

    CNCF
  • 生信自动化流程搭建 06 | 指令

    他们必须在过程的顶部进入人体,在任何其他声明块(即input,output等),并具有以下语法:

    白墨石
  • JuiceFS 在多云存储架构中的应用| 深势科技分享

    2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得“ AI 预测蛋白质结构”...

    Juicedata
  • 第一性原理计算框架 CONQUEST 的安装与测试

    随着计算机的计算能力和运行规模的不断提升,基于第一性原理计算理论的计算材料学科越来越得到重视。但是一般来说这样的模拟对一个包含成千上万的原子、电子而言,所需的计...

    zhonger

扫码关注腾讯云开发者

领取腾讯云代金券