PowerHA 7.2配置实战

众所周知,PowerHA不单单是一个软件,还是一套成熟的解决方案。PowerHA技术能够提供高可用性、业务连续性和灾难恢复能力,是基于AIX/Power平台上主要的高可用解决方案。一直以来,为重要的生产环境保驾护航而被广泛使用。作为AIX/Power系统工程师,PowerHA的交付实施是一门必修课。

PowerHA的交付过程

结合多年临床项目经验,PowerHA的交付可以分为三个阶段,分别是:

规划设计阶段

配置实施阶段

测试验证阶段

规划设计阶段要点

- PowerHA为谁提供保护

为APP还是DB提供了高可用保护?

- 是否部署到PowerVM/LPAR环境

将HA的node部署到PowerVM虚拟化环境,还是非虚拟化的LPAR环境中?

- PowerHA版本选择

除了PowerHA的版本,还需要考虑所宿主的AIX版本。大家可以考虑先使用IBM FLRT工具找出当前推荐版本,然后再结合APP/DB对系统版本的要求或需求,并结合多路径软件的需求等,决策出最终目标的版本(最好经过实际的版本测试验证)。

- 网卡与IP地址

包括BootIP、ServiceIP、Persistence-IP、Netmon.cf;

网卡为虚拟网卡、物理网卡、还是etherchanel(LACP、NIB)?

Netmon.cf广泛使用于配置PowerHA 7.1以后的版本,主要用于:当节点间的IP网络心跳中断时,PowerHA可以通过Ping外部IP的方式,更有效地进行network/adapter故障判断。

- APP/Database的启停脚本

PowerHA所保护的Application/Database的启动或停止脚本,但这部分内容通常不是由AIX或PowerHA工程师提供的。

- PowerHA各组件的命名规则

包括ClusterName、Nodename、Appserver、IP-Lable、ResouceGroup等;

在已满足AIX/PowerHA对命名的规定(如长度、字符等)条件下,需要遵循客户的习惯和要求。

- 其它的特殊要求

如事件脚本定制、APP/DB的监控等。

- 外部存储(共享盘)与SAN交换机的配置要求

CAA盘的数量、大小,需要被两个节点所识别;

Sharevg磁盘的数量、大小,需要被哪些节点所识别;

如果HBA卡满足了SAN心跳的条件,需要交换端对指定端口进行ZONE的配置。

- 输出配置规划表

将上述信息进行汇总整理成规划表或规划方案。

PowerHA配置实施

AIX/PowerHA软件的安装与升级

安装升级完成后,在两个节点上分别运行halevel进行版本的检查,确认满足目标要求。

AIX系统层的配置与检查

− App/DB启停脚本部署与检查:确保在两个节点上启停脚本的位置、权限、ownership的正确性及一致性

− Sharevg中的共享磁盘属性检查,建议将reserve_policy修改为no_reserve;

− Sharevg卷组属性,确认auto varyon是关闭的且卷组类型为concurrent;

(运行smit chvg -> select sharevg)

− Sharevg与Filesystems的创建或导入;

− Sharevg的其它检查;FS_mount point、MajorNum、权限、ownership信息在两个节点上是一致的(卷组本身及其包含的LV、filesystems);

− CAA_repository_disk的识别;(分别在两个节点上运行cfgmgr命令,识别该共享盘)

− Etherchanel网卡的配置(optional);

网卡IP的配置、/etc/hosts、/etc/cluster/rhosts、netmon.cf;

(/etc/hosts文件内至少要有一个bootip使用的是主机名;netmon.cf文件内可以有多少记录,每记录的格式为:IREQD 源 目标IP,即在当前节点内从哪个源端ping到哪一个外部IP;)

PowerHA的配置

Topology的配置

− Cluster、Node、IP-network&IP-interface的定义:

(在某一个节点上运行smit cm_setup_menu ==>  Setup a Cluster, Nodes and Networks)

− CAA-Repository disk的定义:

(smit cm_setup_menu ==>Define Repository Disk and Cluster IP Address)

− Verify&Synchronize:

(运行smit cm_cluster_nodes_networks并选择如下项)

Resources&RG的配置

− ApplicationServer的定义:

(smit cm_resources_menu ==> 选择Configure User Applications ==> 选择Application Controller Scripts==>选择 Add Application Controller Scripts)

− ServiceIP的定义:

(smit cm_resources_menu ==> 选择Configure Service IP Labels/Addresses ==> 选择Add a Service IP Label/Address)

− RG的定义:

(smit cm_resource_groups ==> 选择Add a Resource Group)

− 将Resources添加到RG里:

(smit cm_resource_groups ==> 选择Change/Show Resources and Attributes for a Resource Group)

− PesistenceIP的定义(optional)

(smit cm_manage_nodes ==> 选择Configure Persistent Node IP Label/Addresses ==>选择Add a Persistent Node IP Label/Address==> 选择目标节点)

− Verify&Synchronize

PowerHA测试项目

PowerHA服务的启停

(将两节点的HA服务拉起,运行smit clstart)

服务拉起后,运行cldump/clRGinfo/lssrc -ls clstrmgrES/ifconfig -a/lsvg -o/lspv等命令检查HA及其资源的状态。

节点宕的测试

(如:在主节点上或是跑应用数据库的节点上运行halt -q)

手工发起RG的移动

(smit cl_admin  ==> Resource Group and Applications ==> Move Resource Groups to Another Node)

网卡宕的测试

其他测试:(如:在虚拟化环境中,进行虚拟层中VIOS间的切换测试,判断是否会对HA节点有所影响)

注:测试过程要进行记录,完成后最好要形成一个完整的测试报告。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200701A0NKK200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券