keepalived中的脑裂

    在高可用(HA)系统中,当联系2个节点的“心跳线”断开时,本来为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都以为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢“共享资源”、争起“应用服务”,就会发生严重后果——或者共享资源被瓜分、2边“服务”都起不来了;或者2边“服务”都起来了,但同时读写“共享存储”,导致数据损坏(常见如数据库轮询着的联机日志出错)。 对付HA系统“裂脑”的对策,目前达成共识的的大概有以下几条: 1)添加冗余的心跳线,例如:双线条线(心跳线也HA),尽量减少“裂脑”发生几率; 2)启用磁盘锁。正在服务一方锁住共享磁盘,“裂脑”发生时,让对方完全“抢不走”共享磁盘资源。但使用锁磁盘也会有一个不小的问题,如果占用共享盘的一方不主动“解锁”,另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃,就不可能执行解锁命令。后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了“智能”锁。即:正在服务的一方只在发现心跳线全部断开(察觉不到对端)时才启用磁盘锁。平时就不上锁了。 3)设置仲裁机制。例如设置参考IP(如网关IP),当心跳线完全断开时,2个节点都各自ping一下参考IP,不通则表明断点就出在本端。不仅“心跳”、还兼对外“服务”的本端网络链路断了,即使启动(或继续)应用服务也没有用了,那就主动放弃竞争,让能够ping通参考IP的一端去起服务。更保险一些,ping不通参考IP的一方干脆就自我重启,以彻底释放有可能还占用着的那些共享资源。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏前端小吉米

WebP2P 让你的直播免流

1585
来自专栏FreeBuf

用一首歌曲来谱写RTMP协议分析

最近在重温由W.Richard Stevens 的传世之作《TCP/IP详解》,看到第12章TCP ,基于传输层有TCP 、 UDP 、 TLS 、DCCP 、...

702
来自专栏杨建荣的学习笔记

关于奇怪的并行进程分析(一) (r6笔记第41天)

在使用orabbix进行监控的时候,得益于使用 实时DB time监控的选项,对于几分钟内的性能抖动也能够狠容易的记录下来,而且会把这个监控的结果基本真实反应出...

2737
来自专栏用户2442861的专栏

网络七层的功能

 网络七层包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。其中物理层、数据链路层和网络层通常被称作媒体层,是网络工程师所研究的对象;传输层、会...

511
来自专栏杨建荣的学习笔记

增量数据丢失的原因分析(二)(r8笔记第76天)

今天处理的一个问题比较绕,花费了我不少的时间来分析,当然最后发现是拜拜忙碌一场空,还是有一些历史原因。 大体的环境情况如下,有一台线上库OLTP,其中也有会自己...

2648
来自专栏Brian

白话SDN和学习笔记

---- 概述 最近开发私有云产品,那么不得不提的就是VPC(虚拟专有网络)。VPC是什么且具有什么优势呢?虚拟私有云(Virtual Private Clou...

3225
来自专栏张善友的专栏

SQL Server Performance Dashboard Reports

SQL Server Performance Dashboard Reports是一组Reporting Services的报表,和SQL Server Man...

1858
来自专栏遊俠扎彪

什么是WDS

WDS==Wireless Distribution System.

2017
来自专栏炉边夜话

究竟是测试重要,还是工程重要?

近期一直在负责IPV6一致性测试的工作,也负责解决一些问题,但今天碰到一件匪夷所思的事情,让人不可理解。

582
来自专栏ThoughtWorks

Keycloak单点登录平台|技术雷达

Keycloak首次在ThoughtWorks技术雷达第16期中以“评估”的状态出现。 技术雷达15期正式提出“安全是每一个人的问题”,同时也对Docker和微...

4653

扫码关注云+社区