一致性hash是用来解决什么问题的? 先看一个场景 有n个cache服务器,一个对象object映射到哪个cache上呢? 可以采用通用方法计算object的hash值,然后均匀的映射到到n个cache hash(object) % n 初始阶段运行正常,但当cache服务器发生变动后就会出现问题 例如 (1)一个cache服务器down掉了,这样所有映射到此cache的对象都会失效,需要把此cache移除,这时候映射公式变成了 hash(object) % (n-1) (2)由于访问加重,需要添加cache ,这时候映射公式变成了 hash(object) % (n+1) 这两种情况几乎会使所有的cache都失效,大量的访问都会直接访问后台服务器,造成极大的压力 一致性hash算法就是为了解决普通hash的不足,把损失降到最低 一致性hash的原理 一致性hash将整个哈希值空间组织成一个虚拟的圆环 假设某哈希函数H的值空间为0-2^32-1(2^32为2的32次方) 整个空间按顺时针方向组织,0和232-1在零点中方向重合
把各个cache服务器通过hash计算,根据hash值顺时针排列到圆环上,可以根据服务器的IP或者主机名进行计算 例如有 A B C 三台服务器
现在可以映射object了,映射规则为: 将key使用相同的hash计算出值,并确定此数据在环上的位置,从此位置顺时针行走,第一台遇到的cache服务器就是其应该定位到的服务器 例如有4个object需要映射到cache服务器
根据映射规则 object 1 -> A object 2、3 -> B object 4 -> C 下面看cache服务器的增减情况 (1)移除 例如A出现异常,需要移除
object 1 失效,需要映射到B 受影响的只有object 1 (2)添加 cache压力增加,需要添加服务器,新增cache服务器D
object 2 需要重新映射到D 受影响的只有object 2 可以看到一致性hash比普通hash高效了很多