一致性 Hash 算法

简单的程序员

发布于 2020-04-20 11:07:29

3820

发布于 2020-04-20 11:07:29

文章被收录于专栏：奕仁专栏奕仁专栏

一致性hash算法：

在高并发，高可用系统中，对技术的选型和设计也很重要。

背景：

哈希算法：就是对一个对象进行哈希获得的散列值。其中，值越分散，哈希的碰撞率也就越低，性能也就越好。

一致性哈希算法在分布式高可用系统中场景的很多，比如分布式缓存存值问题，以redis为例，当拥有多台redis实例的时候可以利用redis自带的主从复制功能实现高可用（主写从读）。但是，一台服务器是有性能瓶颈的，当一台服务器存入的数据量大于该服务器性能瓶颈的时候，吞吐量会急剧下降，服务器会发生进程坏死的情况，所以这里使用多台作为例子，这里用下图方式进行分布：

这里的做法是用每台服务器的ip或者实例name作为key进行哈希取模

上图中，假设我们查找的是”a.png”，由于有4台服务器（排除从库），因此公式为hash(a.png) % 4 = 2 ，可知定位到了第2号服务器，这样的话就不会遍历所有的服务器，大大提升了性能！

Hash 取模

随机放置就不说了，会带来很多问题。通常最容易想到的方案就是 hash 取模了。我们可以将传入的 Key 按照 index = hash(key) % N 这样来计算出需要存放的节点。其中 hash 函数是一个将字符串转换为正整数的哈希映射方法，N 就是节点的数量。这样可以满足数据的均匀分配，但是这个算法的容错性和扩展性都较差。比如增加或删除了一个节点时，大量的请求会进入到数据库可能会引发系统雪崩。

那么问题又来了，这个问题就比较严重了！动态的加机器会导致所有的key失效？

这里就引入了一致性哈希算法：

将所有的哈希值构成了一个环，其范围在 0 ~ 2^32-1。