前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >玩转企业集群运维管理系列(十八):LVS+KeepAlived 高可用负载均衡集群原理与实践

玩转企业集群运维管理系列(十八):LVS+KeepAlived 高可用负载均衡集群原理与实践

作者头像
民工哥
发布2023-12-20 15:45:12
1960
发布2023-12-20 15:45:12
举报
文章被收录于专栏:民工哥技术之路

高可用(HA)群集与普通群集的比较

普通群集

普通的群集的部署是通过一台度器控制调配多台节点服务器进行业务请求的处理,但是仅仅是一台调度器,就会存在极大的单点故障风险,当该调度器的链路或则调度器本身出现故障时,就会导致整个业务的无法正常进行。

高可用群集(HA)

高可用集群是由一台主调度器和一台或多台备用调度器。在主调度器能够正常运转时,由主调度器进行节点服务器业务的分配处理,其余备用调度器处于待机状态,不参与当前的集群运转。当主调度器出现故障无法运转时,此时备用调度器会由优先级最高的调度承担主调度器的工作,而出现故障的主调调度器便会退出当前工作,由人工维修后返回集群。

本次实验部署采用的时KeepAlived的运用与LVS中DR模式的结合,共同部署出高可用的负载均衡的集群。更多关于企业集群运维管理系列的学习文章,请参阅:玩转企业集群运维管理专栏,本系列持续更新中。

部署前的准备

设备准备:

  • 主DR 服务器:192.168.73.105
  • 备DR 服务器:192.168.73.106
  • Web 服务器1:192.168.73.107
  • Web 服务器2:192.168.73.108
  • vip:192.168.73.66
  • 客户端:192.168.73.109

部署简图:

部署步骤
步骤一:配置负载调度器(主备相同)

(1)通用配置

代码语言:javascript
复制
systemctl stop firewalld
systemctl disable firewalld
setenforce 0
vim /etc/selinux/config
SELINUX=disabled
 
yum -y install ipvsadm keepalived
modprobe ip_vs
cat /proc/net/ip_vs

(2)配置keeplived主备设置

代码语言:javascript
复制
cd /etc/keepalived/
cp keepalived.conf keepalived.conf.bak
vim keepalived.conf
......
global_defs {      #定义全局参数
--10行--修改,邮件服务指向本地
 smtp_server 127.0.0.1
--12行--修改,指定服务器(路由器)的名称,主备服务器名称须不同,主为LVS_01,备为LVS_02
 router_id LVS_01
--14行--注释掉,取消严格遵守VRRP协议功能,否则VIP无法被连接
 #vrrp_strict
}
 
vrrp_instance VI_1 {    #定义VRRP热备实例参数
--20行--修改,指定热备状态,主为MASTER,备为BACKUP
    state MASTER
--21行--修改,指定承载vip地址的物理接口
    interface ens33
--22行--修改,指定虚拟路由器的ID号,每个热备组保持一致 
    virtual_router_id 10
 #nopreempt  #如果设置非抢占模式,两个节点state必须为BACKUP,并加上配置 nopreempt
--23行--修改,指定优先级,数值越大优先级越高,这里设置主为100,备为90
    priority 100
    advert_int 1     #通告间隔秒数(心跳频率)
    authentication {    #定义认证信息,每个热备组保持一致
  auth_type PASS    #认证类型
--27行--修改,指定验证密码(可以自定义),主备服务器保持一致
        auth_pass 1111   
    }
    virtual_ipaddress {    #指定群集vip地址
        192.168.73.66
    }
}
--36行--修改,指定虚拟服务器地址(VIP)、端口,定义虚拟服务器和Web服务器池参数
virtual_server 192.168.73.66 80 {
    delay_loop 6     #健康检查的间隔时间(秒)
    lb_algo rr      #指定调度算法,轮询(rr)
--39行--修改,指定群集工作模式,直接路由(DR)
    lb_kind DR
    persistence_timeout 0   #连接保持时间(秒)
    protocol TCP     #应用服务采用的是 TCP协议
--43行--修改,指定第一个Web节点的地址、端口
    real_server 192.168.73.107 80 {
        weight 1     #节点的权重
--45行--删除,添加以下健康检查方式  
        TCP_CHECK {
   connect_port 80   #添加检查的目标端口
   connect_timeout 3  #添加连接超时(秒)
   nb_get_retry 3   #添加重试次数
   delay_before_retry 3 #添加重试间隔
  }
 }
 
 real_server 192.168.73.108 80 {  #添加第二个 Web节点的地址、端口
        weight 1
        TCP_CHECK {
   connect_port 80
   connect_timeout 3
   nb_get_retry 3
   delay_before_retry 3
  }
 }
##删除后面多余的配置##
}
代码语言:javascript
复制
systemctl start keepalived
ip addr      #查看虚拟网卡vip

快捷方式配置:由于备DR调度器只要一些参数与主DR调度器不同,可以使用scp命令将该配置文件传输给备DR调度器。

代码语言:javascript
复制
cp -a keepalived.conf    keepalived.conf.bak1
scp `pwd`/keepalived.conf.bak1 root@192.168.73.106:`pwd`

传送效果:

备DR调度器需要修改的参数配置 :

代码语言:javascript
复制
#########全局配置中定义LVS编号为02#########
 
router_id LVS_02
 
######虚拟网卡######
vrrp_instance VI_1 {
    state BAKUP   #修改状态为备份
.................
    priority 90   #优先级设置要比主DR调度器低
   
    }

(3)启动 ipvsadm 服务

主DR调度器:192.168.73.105

代码语言:javascript
复制
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
 
ipvsadm -ln

备DR调度器:192.168.73.106

代码语言:javascript
复制
ipvsadm-save > /etc/sysconfig/ipvsadm
systemctl start ipvsadm
 
ipvsadm -ln

(4)调整 proc 响应参数,关闭Linux 内核的重定向参数响应 (主备均配置)

代码语言:javascript
复制
vim /etc/sysctl.conf
net.ipv4.conf.all.send_redirects = 0
net.ipv4.conf.default.send_redirects = 0
net.ipv4.conf.ens33.send_redirects = 0
 
sysctl -p

更多关于企业集群运维管理系列的学习文章,请参阅:玩转企业集群运维管理专栏,本系列持续更新中。

步骤二:配置节点服务器

(1)通用配置

代码语言:javascript
复制
systemctl stop firewalld
systemctl disable firewalld
setenforce 0
vim /etc/selinux/config
SELINUX=disabled
 
yum -y install httpd
systemctl start httpd

(2)设置回环虚拟网卡(VIP),添加静态路由

代码语言:javascript
复制
#配置回环的虚拟网卡,设置VIP承载
vim /etc/sysconfig/network-scripts/ifcfg-lo:0
DEVICE=lo:0
ONBOOT=yes
IPADDR=192.168.73.66
NETMASK=255.255.255.255
 
service network restart 或 systemctl restart network
ifup lo:0
ifconfig lo:0
 
#添加静态路由
route add -host 192.168.73.66 dev lo:0

(3)设置内核参数

响应参数以阻止更新 VIP 的 MAC 地址,避免发生冲突(web1和web2的相同设置)。

代码语言:javascript
复制
vim /etc/sysctl.conf
 
net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2
 
sysctl -p

(4)添加测试网页,主要用于负载均衡的测试效果

web1(192.168.73.107)测试网页添加:

代码语言:javascript
复制
echo '<h1>this is web1  test!</h1>' >/var/www/html/index.html
vim /etc/httpd/conf/httpd.conf 
KeepAlive off
systemctl  restart  httpd

web2(192.168.73.108)测试网页添加:

代码语言:javascript
复制
echo '<h1>this is  web2 test!</h1>' > /var/www/html/index.html
vim /etc/httpd/conf/httpd.conf 
KeepAlive off
systemctl restart httpd

更多关于企业集群运维管理系列的学习文章,请参阅:玩转企业集群运维管理专栏,本系列持续更新中。

步骤三:客户机访问测试
  • 测试1:客户机直接访问VIP地址,刷新网页观察是否存在负载均衡
  • 测试2:关闭DR主调度器keepalived服务,测试备调度器是否顶替

客户机地址为:192.168.73.109

对主调度器关闭keepalived服务:

代码语言:javascript
复制
systemctl   stop  keepalived
  • 测试3:重新开启DR主调度器服务,测试主调器是否抢占VIP
代码语言:javascript
复制
systemctl restart keepalived

更多关于企业集群运维管理系列的学习文章,请参阅:玩转企业集群运维管理专栏,本系列持续更新中。

高可用群集的脑裂现象及预防措施

脑裂现象

在"双机热备"高可用(HA)系统中,当联系两个节点的"心跳线"断开时(即两个节点断开联系时),本来为一个整体、动作协调的HA系统,就分裂成为两个独立的节点(即两个独立的个体)。由于相互失去了联系,都以为是对方出了故障,此时备用调度器会运转起来争做主调度器的工作,而主调度器依然保持着调度工作,两个调度的同时运转导致整个系统的紊乱。就会发生严重后果:

  • 共享资源被瓜分、两边"服务"都起不来了.
  • 或者两边"服务"都起来了,但同时读写"共享存储",导致数据损坏(常见如数据库轮询着的联机日志出错)
产生脑裂的常见原因
硬件原因
  • 高可用服务器各节点之间心跳线链路发生故障,导致无法正常通信。
  • 因心跳线坏了(包括断了,老化)。
  • 因网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)。
  • 因心跳线间连接的设备故障(网卡及交换机)。
  • 因仲裁的机器出问题(采用仲裁的方案)。
运用配置原因
  • 高可用服务器上开启了iptables防火墙阻挡了心跳消息传输。
  • 高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败。
  • 其他服务配置不当等原因,如心跳方式不同,心跳广插冲突、软件Bug等
  • Keepalived配置里同一VRRP实例如果virtual_router_id两端参数配置不一致也会导致裂脑问题发生
脑裂预防预防措施

针对脑裂现象的产生,运维人员第一时间要做的不是处理发生故障的调度器或则故障线路,而是首先确保业务不会因此中断,进行脑裂的预防尤为重要。出现问题,先保证业务的进行,再进行排障。

方式一:添加冗余的心跳线

添加冗余的心跳线支持HA多线路的进行,在多线路的加持下,一条线路故障后,也会有其余的线路也可传输心跳信息,让主备调度器继续保持正常运转。此方案可减少脑裂产生的概率。

方式二:脚本配合周期任务计划检测,调度器自我裁决

脑裂分析:产生脑裂的最主要最常见的原因是备调度器接收不到主调度器的的心跳信息。首先调度器大多数情况下都会是在统一局域网中,是通过网络来进行心跳信息的传送。所以心跳信息的检测可以基于icmp协议来进行检测

脚本思路

如下图:若产生脑裂时我们需要探究的是通过脚本预测是1号线路的问题还是2号线路的问题 。所以本次脚本的编写只要能判断出哪条线路产生问题后,进行相应的裁决就可以在脑裂产生的第一时间免除其带来的影响。

  • 1.主调度器本身使用ping命令进行周期计划ping备用调度器,保证时刻畅通。
  • 2.采用条件判断语句,若主调调度器ping不通备调度器时,主调度器启用ssh服务远程借用节点服务器对备用调度器进行ping命令(可以多设置几台节点服务器ping,确保准确性)。若节点服务能ping通则说明问题出现在1号线路,主调度器进行自我裁决,让备调度器进行主调调度器的工作。若节点服务器也ping不通备调度器,说明问题出在了2号线路。
  • 3.可以在备调度器中也添加一个该方式的脚本,时刻ping主调度器。保证2号线出现问题时进行自我裁决。
  • 4.将主备调度器的脚本均添加周期计划任务中(crontab -e),进行合理的时间段检测。
方式三:第三方工具,监控软件

利用主流的监控软件,例如zabbix。当两个节点出现分歧时,由第3方的仲裁者决定听谁的。这个仲裁者,可能是一个锁服务,一个共享盘或者其它什么东西。例如设置参考IP(如网关IP),当心跳线完全断开时,2个节点都各自ping一下参考IP,不通则表明断点就出在本端。不仅"心跳"、还兼对外"服务"的本端网络链路断了,即使启动(或继续)应用服务也没有用了,那就主动放弃竞争,让能够ping通参考IP的一端去起服务。更保险一些,ping不通参考IP的一方干脆就自我重启,以彻底释放有可能还占用着的那些共享资源。

方式四:启用磁盘锁

正在服务一方锁住共享磁盘,"裂脑"发生时,让对方完全"抢不走"共享磁盘资源。但使用锁磁盘也会有一个不小的问题,如果占用共享盘的一方不主动"解锁",另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃,就不可能执行解锁命令。后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了"智能"锁。即:正在服务的一方只在发现心跳线全部断开(察觉不到对端)时才启用磁盘锁。平时就不上锁了。

更多关于企业集群运维管理系列的学习文章,请参阅:玩转企业集群运维管理专栏,本系列持续更新中。

参考链接:https://blog.csdn.net/qq_21003381/article /details/131124966

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 民工哥技术之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 高可用(HA)群集与普通群集的比较
    • 普通群集
      • 高可用群集(HA)
      • 部署前的准备
        • 部署步骤
        • 高可用群集的脑裂现象及预防措施
          • 脑裂现象
            • 产生脑裂的常见原因
              • 脑裂预防预防措施
              相关产品与服务
              负载均衡
              负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档