有幸在工作中体验了几个计算集群的使用,几乎每个计算集群都有专门的集群调度系统,而当需要在短时间对多个系统做测试是第一道障碍就是熟悉各个调度系统的操作指令,以下列举近期使用到的几个分布式作业调度系统的常用操作指令和几个超算中心使用体验
普通刀片节点配备 两颗 Intel(R) Xeon(R) CPU E5-2692 v2 @ 2.20GHz 共24物理核,内存为64G 调度系统为 Slurm, 以下为常用指令
yhi命令可查看当前账号可用队列的状态信息,主要用于查看队列中空闲节点情况,常用命令还有yhi -n cn12345查看指定节点信息, yhi -p paratera 查看指定队列信息yhrun -N 1 -n 1 -c 24 -p paratera job.sh,由于天河服务器采用任务独占节点形式,所以每节点的任务最好设置为24yhbatch -N 1 -n 1 -c 24 job.shyhcancel JOBIDyhacct -u pp100 -S 03/01/17 -E 03/31/17 --field=jobid,partition,jobname,user,nnodes,start,end,elapsed,state国家超算无锡中心神威-太湖之光包括商用x86平台和国产平台,国产平台采用申威26010处理器,有专用编译器,尚不支持JAVA, python, R等语言,x86平台普通节点配备两颗 Intel(R) Xeon(R) CPU E5-2680 v3 @ 2.50GHz CPU,共24物理核,内存为128G 调度系统不明,可能是自研的, 以下为常用指令
bsub -q q_x86_share -N 1 -o job.out /path/job.sh, 注意投递任务脚本路径必须填写绝对路径福建省超算中心曙光集群普通计算节点配备 2颗 Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz 共28物理核,内存为188G,在体验期间曾遇到频繁开启关闭超线程现象,同时也有幸在同系统内对开启或关闭超线程做了点小测试,测试结果显示开启超线程对计算密集型进行有小幅加速效果,但在以核时计费的系统中需要注意,开启超线程将会导致耗费核时为实际情况的两倍,此集群只有一个登录节点,节点运行程序较多,有mysql运行在登录节点,从一定程度上反映出集群管理不是很专业 调度系统为PBS, 以下为常用指令
#PBS -q queue普通计算节点配备两颗Intel(R) Xeon(R) Gold 6150 CPU @ 2.70GHz CPU,36物理核,内存188G,是体验中单节点性能最好的集群 调度系统为 LSF, 以下为常用指令
bsub -q queue -J name -n 36 -R span[hosts=1] -o name.out -e name.err /path/job.sh调度系统为 SGE, 以下为常用指令

那我就补充一下,早在 2015年9月29日 我就介绍过关于qsub和condor两种在集群上面提交任务的方式比对