前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LSF作业系统无法启动

LSF作业系统无法启动

作者头像
生信喵实验柴
发布2024-03-06 15:38:09
1240
发布2024-03-06 15:38:09
举报
文章被收录于专栏:生信喵实验柴生信喵实验柴
背景

最近使用linux系统module模块安装中,使用root用户,执行以下高危命令后

代码语言:javascript
复制
chown -R sysop:sysop /share/apps/repos
yum remove environment-modules.x86_64 

导致lsf系统无法启动,xcat无法通信等,折腾了几次perl模块,xcat通信正常后。lsf系统还是异常

lsload显示节点正常启动,但是bhosts/bjobs依然提示lsf is down,please wait

解决方案

1 通过查询ibm公司排错流程

代码语言:javascript
复制
https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?topic=problems-solving-common-lsf

找到mbatchd日志文件

代码语言:javascript
复制
tail -fn 100 /share/apps/lsf/log/mbatchd.log.mgt |head
输出以下内容
Feb 29 19:33:21 2024 240794 3 9.1.3 init_log: Log directory </share/apps/lsf/work/cluster1/logdir> not owned by LSF administrator <lsfadmin/1000> (owner ID is 0)

可以看出日志报错,lsf目录权限不为lsfadmin所有,因为背景中提到我给了sysop,后续排错中,我又给了root。基本找到原因了。

2 下面在ibm官网确认这个事情的解决方案

代码语言:javascript
复制
https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?topic=overview-important-directories-configuration-files

以上链接展示了 conf work log的权限应该是lsfadmin的。下面将权限移交回lsfadmin,并重新启动lsf。

代码语言:javascript
复制
chown -R lsfadmin:lsfadmin /share/apps/lsf/log
chown -R lsfadmin:lsfadmin /share/apps/lsf/work
chown -R lsfadmin:lsfadmin /share/apps/lsf/conf
lsf_daemons restart

3 检查lsf状态

妥善解决

后记

当我们使用root时一切要小心,要记录执行的命令,出问题好排查。能不使用就不使用。

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 解决方案
    • 1 通过查询ibm公司排错流程
      • 2 下面在ibm官网确认这个事情的解决方案
        • 3 检查lsf状态
        • 后记
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档