类似于前面我们简单说了Zookeeper可能解决的问题,例如类似于实现分布式锁,控制任务执行
但是这里也会发现会有很多其他隐形问题.Zookeeper设计时就是为了解决了这些问题.
要防止 zookeeper 这个中间件的单点故障,那么肯定要做集群。而且这个集群如果要满足高性能要求的话,还得是一个高性能高可用的集群。
简单说就是横向扩容,纵向热备. 需求1 :.这个中间件需要考虑到集群,而且这个集群还需要分摊客户端的请求流量
要保证高性能,就需要保证我们任意请求打到任意结点上都会有相同的反馈结果.进一步说明我们需要保证每个节点都能接收到请求,并且每个节点的数据都必须要保持一致。要实现各个节点的数据一致性,就需要 一个 leader 节点负责协调和数据同步操作。这个我想大家都知道,如果在这样一个集群中没有 leader 节点,每个节点都可以接收所有请求,那么这个集群的数据同步的复杂度是非常大。 需求2:所以这个集群中涉及到数据同步以及会存在leader 节点,用来保证数据一致性
既如何在众多节点中选举出 leader 节点,以及leader 宕机以后以后,如何恢复呢,如何正常保证使用呢?
需求3 :结论:所以 zookeeper 用了基于 paxos 理论所衍生出来的 ZAB 协议
在分布式系统中,每一个机器节点虽然都能够明确知道自己进行的事务操作过程是成功和失败,但是却无法直接获取其他分布式节点的操作结果。 所以当一个事务操作涉及到跨节点的时候,就需要用到分布式事务,分布式事务的数据一致性协议有 2PC 协议和3PC 协议
当一个事务操作需要跨越多个分布式节点的时候,为了保持事务处理的 ACID特性,就需要引入一个“协调者”(TM)来统一调度所有分布式节点的执行逻辑,这些被调度的分布式节点被称为 AP。TM 负责调度 AP 的行为,并最终决定这些 AP 是否要把事务真正进行提交;因为整个事务是分为两个阶段提交,所以叫 2pc
在这个阶段,协调者会根据各参与者的反馈情况来决定最终是 否可以进行事务提交操作,正常情况下包含两种可能:执行事务、 中断事务
在 zookeeper 中,客户端会连接到 zookeeper 集群中的一个节点
所有事务请求必须由一个全局唯一的服务器来协调处理,这个服务器就是 Leader 服务器,其他的服务器就是follower。
leader 服务器把客户端的写请求转化成一个事务 Proposal(提议),并把这个 Proposal 分发给集群中的所有 Follower 服务器。之后 Leader 服务器需要等待所有Follower 服务器的反馈,一旦超过半数的 Follower 服务器进行了正确的反馈ACK,那么 Leader 就会再次向所有的Follower 服务器发送 Commit 消息,要求各个 follower 节点对前面的一个 Proposal 进行提交;
为什么会有observer这种服务器存在? 由于选举需要进行网络IO,我们的leader必须经过全部IO结束才能决定是否提交事务或者进行选举,这将会拉低效率,故出现了Observer这种单处理不选举的服务器类型.
通常 zookeeper 是由 2n+1 台 server 组成,每个 server 都知道彼此的存在。 对于 2n+1 台 server,只要有 n+1 台(大多数)server 可用,整个系统保持可用。我们已经了解到,一个 zookeeper 集群如果要对外提供可用的服务,那么集群中必须要有过半的机器正常工作并且彼此之间能够正常通信,基于这个特性,如果向搭建一个能够允许 F 台机器down 掉的集群,那么就要部署 2*F+1 台服务器构成的zookeeper 集群。因此 3 台机器构成的 zookeeper 集群,能够在挂掉一台机器后依然正常工作。一个 5 台机器集群的服务,能够对 2 台机器怪调的情况下进行容灾。如果一台由 6 台服务构成的集群,同样只能挂掉 2 台机器。因此,5 台和 6 台在容灾能力上并没有明显优势,反而增加了网络通信负担。系统启动时,集群中的 server 会选举出一台server 为 Leader,其它的就作为 follower(这里先不考虑observer 角色)。 之所以要满足这样一个等式,是因为一个节点要成为集群中的 leader,需要有超过及群众过半数的节点支持,这个涉及到 leader 选举算法。同时也涉及到事务请求的提交投票.
ZAB(Zookeeper Atomic Broadcast)原子广播 协议是为分布式协调服务 ZooKeeper 专门设计的一种
。 在 ZooKeeper 中,主要依赖 ZAB 协议来实现分布式数据一致性,基于该协议,ZooKeeper 实现了一种
的系统架构来保持集群中各个副本之间的数据一致性.
当整个集群在启动时,或者当 leader 节点出现网络中断、崩溃等情况时,ZAB 协议就会进入恢复模式并选举产生新的 Leader,当 leader 服务器选举出来后,并且集群中有过半的机器和该 leader 节点完成数据同步后(同步指的是数据同步,用来保证集群中过半的机器能够和 leader 服务器的数据状态保持一致),ZAB 协议就会退出恢复模式。当集群中已经有过半的 Follower 节点完成了和 Leader 状态同步以后,那么整个集群就进入了消息广播模式。这个时候,在 Leader 节点正常工作时,启动一台新的服务器加入到集群,那这个服务器会直接进入数据恢复模式,和leader 节点进行数据同步。同步完成后即可正常对外提供非事务请求的处理。
ZAB 协议的这个基于原子广播协议的消息广播过程,在正常情况下是没有任何问题的,但是一旦 Leader 节点崩溃,或者由于网络问题导致 Leader 服务器失去了过半的Follower 节点的联系(leader 失去与过半 follower 节点联系,可能是 leader 节点和 follower 节点之间产生了网络分区,那么此时的 leader 不再是合法的 leader 了),那么就会进入到崩溃恢复模式。在ZAB 协议中,为了保证程序的正确运行,整个恢复过程结束后需要选举出一个新的Leader.
leader 对事务消息发起 commit 操作,但是该消息在follower1 上执行了,但是 follower2 还没有收到 commit,就已经挂了,而实际上客户端已经收到该事务消息处理成功的回执了。所以在 zab 协议下需要保证所有机器都要执行这个事务消息.
这个与分布式事务的 2pc 和 3pc 协议有关,消息广播的过程实际上是一个简化版本的二阶段提交过程.
leader 的投票过程,不需要 Observer 的 ack,也就是Observer 不需要参与投票过程,但是 Observer 必须要同步 Leader 的数据从而在处理请求的时候保证数据的一致性
ZAB 协议需要满足上面两种情况,就必须要设计一个leader 选举算法: 能够确保已经被 leader 提交的事务Proposal能够提交、同时丢弃已经被跳过的事务Proposal。 针对这个要求
因为所有提案被 COMMIT 之前必须有超过半数的 follower ACK,即必须有超过半数节点的服务器的事务日志上有该提案的 proposal,因此,只要有合法数量的节点正常工作,就必然有一个节点保存了所有被 COMMIT 消息的 proposal 状态另外一个 zxid 是 64 位 - 高 32 位是 epoch 编号,每经过一次 Leader 选举产生一个新的 leader,新的 leader 会将epoch 号+1 - 低 32 位是消息计数器,每接收到一条消息这个值+1,新 leader 选举后这个值重置为 0.
这样设计的好处在于老的 leader 挂了以后重启,它不会被选举为 leader,因此此时它的 zxid 肯定小于当前新的 leader。当老的leader 作为 follower 接入新的 leader 后,新的leader 会 让它将所有的拥有旧的 epoch 号的未被 COMMIT 的proposal 清除
关于 ZXID zxid,也就是事务 id 为了保证事务的顺序一致性,zookeeper 采用了递增的事务 id 号(zxid)来标识事务。 所有的提议(proposal)都在被提出的时候加上了 zxid。 实际上 zxid 是一个 64 位的数字,它高 32 位是 epoch用来标识 leader 关系是否改变(ZAB 协议通过 epoch 编号来区分 Leader 周期变化的策略),每次一个 新leader 被选出来,它都会有一个新的epoch=(原来的 epoch+1),标识当前属于那个 leader 的统治时期。低 32 位用于递增消息计数. epoch 的变化大家可以做一个简单的宕机实验
每个节点启动的时候状态都是 LOOKING,处于观望状态,接下来就开始进行选leader流程 进行 Leader 选举,至少需要两台机器 在集群初始化阶段,当有一台服务器 Server1 启动时,它本身是无法进行和完成 Leader 选举,当第二台服务器 Server2 启动时,这个时候两台机器可以相互通信,每台机器都试图找到 Leader,于是进入 Leader 选举过程。 选举过程如下 (1) 每个 Server 发出一个投票。由于是初始情况,Server1和 Server2 都会将自己作为 Leader 服务器来进行投票,每次投票会包含所推举的服务器的 myid 和 ZXID、epoch,使用(myid, ZXID,epoch)来表示,此时 Server1的投票为(1, 0),Server2 的投票为(2, 0),然后各自将这个投票发给集群中其他机器。 (2) 接受来自各个服务器的投票。集群的每个服务器收到投票后,首先判断该投票的有效性,如检查是否是本轮投票(epoch)、是否来自LOOKING状态的服务器。 (3) 处理投票。针对每一个投票,服务器都需要将别人的投票和自己的投票进行 PK, PK 规则如下 i. 优先检查 ZXID。ZXID 比较大的服务器优先作为Leader ii. 如果 ZXID 相同,那么就比较 myid。myid 较大的服务器作为 Leader 服务器。对于 Server1 而言,它的投票是(1, 0),接收 Server2的投票为(2, 0),首先会比较两者的 ZXID,均为 0,再比较 myid,此时 Server2 的 myid 最大,于是更新自己的投票为(2, 0),然后重新投票,对于 Server2 而言,它不需要更新自己的投票,只是再次向集群中所有机器发出上一次投票信息即可。 (4) 统计投票。每次投票后,服务器都会统计投票信息,判断是否已经有过半机器接受到相同的投票信息,对于 Server1、Server2 而言,都统计出集群中已经有两 台机器接受了(2, 0)的投票信息,此时便认为已经选出了 Leader。 (5) 改变服务器状态。一旦确定了 Leader,每个服务器就会更新自己的状态,如果是 Follower,那么就变更为FOLLOWING,如果是 Leader,就变更为 LEADING。
当集群中的 leader 服务器出现宕机或者不可用的情况时,那么整个集群将无法对外提供服务,而是进入新一轮的Leader 选举,服务器运行期间的 Leader 选举和启动时期的 Leader 选举基本过程是一致的。 (1) 变更状态。Leader 挂后,余下的非 Observer 服务器都会将自己的服务器状态变更为 LOOKING,然后开始进入 Leader 选举过程。 (2) 每个 Server 会发出一个投票。在运行期间,每个服务器上的 ZXID 可能不同,此时假定 Server1 的 ZXID 为123,Server3的ZXID为122;在第一轮投票中,Server1和 Server3 都会投自己,产生投票(1, 123),(3, 122),然后各自将投票发送给集群中所有机器。接收来自各个服务器的投票。与启动时过程相同。 (3) 处理投票。与启动时过程相同,此时,Server1 将会成 为 Leader。 (4) 统计投票。与启动时过程相同。 (5) 改变服务器的状态。与启动时过程相同
启动主线程,QuorumPeer 重写了 Thread.start 方法调用
调用QUORUMPEER的START方法
loaddatabase 主要是从本地文件中恢复数据,以及获取最新的 zxid
初始化LEADERELECTION
配置选举算法,选举算法有3 种,可以通过在 zo o.cfg 里面进行配置,默认是 fast 选举
继续看FastLeaderElection 的初始化动作,主要初始化了业务层的发送队列和接收队列
接下来调用fle.start() , 也就是会调用 FastLeaderElectionstart() 方法,该方法主要是对发送线程和接收线程的初始化 ,左边是 FastLeaderElection 的 start ,右边是messager .start()
wsThread 和 wrThread 的初始化动作在FastLeaderElection的 starter 方法里面进行,这里面有两个内部类,一个是 WorkerSender ,一个是 WorkerReceiver负责发送投票信息和接收投票信息
然后再回到QuorumPeer .java 。 FastLeaderElection 初始化完成以后,调用 super . start(),最终运行 QuorumPeer 的run 方法
前面部分主要是做JMX 监控注册
重要的代码在这个while 循环里
调用setCurrentVote(makeLEStrategy(). lookForLeader());最终根据策略应该运行 Fast LeaderElection 中的选举算法
LOOKFORLEADER开始选举
消息如何广播,看SENDNOTIFICATIONS
WORKERSENDER
其实在这个投票过程中就涉及到几个类 FastLeaderElection: FastLeaderElection 实现了 Election 接口 ,实现 各服务器之间基于 TCP 协议进行选举 Notification:内部类, Notification 表示收到的选举投票信息(其他服务器发来的选举投票信息),其包含了被选举者的 id 、 zxid 、选举周期等信息 ToSend: ToSend 表示发送给其他服务器的选举投票信息,也包含了被选举者的 id 、 zxid 、选举周期等信息 Messenger: Messenger 包含了 WorkerReceiver 和WorkerSender 两个内部类