首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Sun Grid Engine 大规模集群监控

#!/usr/bin/perl #!/bin/bash ## 最近查看队列使用情况 发现如下问题,用户使用SGE 集群的时候内存溢出 ## 此程序用于查看SGE (Sun Grid Engine) 整体集群监控 ##仅以此程序,帮助大家查看 自己任务状态,以免被杀!此工具归BGI所有,祝大家工作愉快! =head1 Name sge_cluster_queue.pl  -- choose the queue observation =head1 Description This program can choose the  bmk queue observation  1) look for the  queue  jobs operation and who is working state 2) find the jobs number total test number,and the user over mem jobs,Jobs-ID,detailed mem \ 3) statistics total use mem =head1 Version   Author: Li linji, lilinji@genomics.cn    Version: 1.0,  Date: 2012-7-30 =head1 Usage   --queue  set  you want  look up queue (defined general.q)   --mem    set  Use full details  queue Jobs and mem (check  over_mem,and jods-ID)   --s      set  Task sort by (name,job,vf,mem && must set --mem)##defined name   --t      set  Task state information  (defined run)   --help    output help information to screen =head1 Exmple ./sge_cluster_queue.pl    perl sge_cluster_queue.pl perl sge_cluster_queue.pl  -queue general.q perl sge_cluster_queue.pl  -queue general.q -mem perl sge_cluster_queue.pl  -queue general.q -mem -s vf =cut use Getopt::Long; use FindBin qw($Bin $Script); use File::Basename qw(basename dirname); use Data::Dumper; my $Sort||="name"; my $St||="r"; my ($help,$mem); $queue_search ||= "general.q"; GetOptions(     "help"=>\$help,     "queue=s"=>\$queue_search,     "mem"=>\$mem,     "s=s"=>\$Sort,     "t=s"=>\$St, ); die `pod2text $0` if ($Help); if ($Sort eq "1") {     $Sort="name"; }elsif($Sort  eq "2"){     $Sort="job"; }elsif($Sort eq "3"){     $Sort="vf"; }elsif($Sort  eq "4"){     $Sort="mem"; } if ($Sort ne "vf" && $Sort ne "mem" && $Sort ne "name" && $Sort ne "job" ) {     print STDERR <<SORt;     -s :        1 or name : sort by name (default)             2 or job :  sort by jobs number             3 or vf :  sort by vf (need  -m )             4 or mem : sort by mem (need  -m ) SORt         exit 0; if (!defined $mem &&  ($Sort eq "mem" || $Sort eq "vf" )) {     print STDERR <<SORt;           -mem : get mem info         -s

01

RDMA_verbs详解-修改队列对属性(ibv_modify_qp)-ceph-ucx-nccl-intel rdma驱动源码解析

QP上可变化的属性描述了QP的发送和接收属性。 在 UC 和 RC QP 中,这意味着将 QP 与远程 QP 连接。 在 Infiniband 中,应向子网管理员 (SA) 执行路径查询,以确定 QP 应配置哪些属性或作为最佳解决方案,使用通信管理器 (CM) 或通用 RDMA CM 代理 (CMA) 连接 QP。 然而,有些应用程序(如ceph)更喜欢自行连接 QP,并通过套接字交换数据来决定使用哪些 QP 属性。 在 RoCE 中,应在连接的 QP 的 QP 属性中配置 GRH,或在 UD QP 的地址句柄(Address Handle)中配置 GRH。 在 iWARP 中,应仅使用通用 RDMA CM 代理 (CMA) 连接 QP。 结构体: struct ibv_qp_attr 描述了队列对QP的属性:

01

UCX-UCT统一通信传输层1-简介

UCT(Unified Communication Transport)是一个传输层,它抽象了各种硬件架构之间的差异,并提供了支持通信协议实现的低级 API。该层的主要目标是以最小的软件开销提供对硬件网络资源的直接有效的访问。为此,UCT 依赖于低级驱动程序,例如 uGNI、Verbs、共享内存、ROCM、CUDA。此外,该层还提供通信上下文管理(基于线程和应用程序级别, 如: ucs_async_context_create, uct_worker_create)以及设备特定存储器(包括加速器中的存储器)的分配和管理的构造。在通信 API 方面,UCT 定义了立即(短消息,如: uct_ep_am_short)、缓冲区复制发送(bcopy,如: uct_ep_am_bcopy)和零拷贝(zcopy, 如: uct_ep_am_zcopy)通信操作的接口。短操作针对可以就地发布和完成的小消息进行了优化。bcopy 操作针对通常通过所谓的弹跳缓冲区发送的中等大小的消息进行了优化。最后,zcopy 操作公开零复制内存到内存通信语义。

03
领券