本文主要研究一下SWIM Protocol
SWIM的全称是Scalable, Weakly-Consistent, Infection-Style, Processes Group Membership Protocol
传统的诸如heartbeats这种membership protocols,每个node周期性地向网络中的所有其他节点发送heartbeat来表示自己是alive的,如果peer超过指定interval没有收到node的heartbeart则该node被认定为dead。这种方式适用于小型网络,其发送的heartbeart数量为O(n^2),当网络中有成千上万的node时则会造成巨大的网络负担;SWIM采用Infection-Style dissemination来解决这个问题
与传统的heartbeats相比,SWIM将整个过程分为Failure Detection及Membership update Dissemination两个task
对于failure detection来,有几个衡量标准:
是否每个failed node最终都会被检测到
一个node从failed到被检测到failed的平均耗时
false positive rate,即一个node被误判为failed的概率
在检测中每个node的network load是多少,是否均匀分布
Unreliable Failure Detectors for Reliable Distributed Systems一文中指出对于异步的网络来说,100%的Completeness与Accuracy无法同时保证,因而SWIM权衡之下选择了Completeness,同时尽可能减少false positive rate以提升Accuracy
SWIM的failure detection过程分为两个部分,一个是direct ping,一个是indirect ping
local node从alive nodes中随机选择N个node来进行detect;如果direct ping中有的node没有在timeout时间内返回ack则会进行indirect ping
local node从alive nodes中随机选择K个node来对direct ping目标node进行indetect ping,这K个node会把结果forwards给这个local node,最后local node检查如果这个K个node没有一个返回ack,则将该目标node标记为failed,然后通过Membership update Dissemination将该node的FAILED信息传播到网络中的其他node
Membership update Dissemination可以将messages分为JOINED、FAILED两类:
当一个node加入到该网络时,需要通知其他node更新local membership新增该node
当一个node被检测为failed时,需要通知其他node更新local membership移除该node
这个过程可以使用multicast来实现
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。