前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Redis数据都是怎么存储的?

Redis数据都是怎么存储的?

原创
作者头像
程序员小徐
发布2023-12-13 22:15:30
2810
发布2023-12-13 22:15:30
举报
文章被收录于专栏:后段技术创作

1 redis中的数据结构

Redis是目前最流行的内存数据库之一,而redis成为最流行的原因就是’快’,即在微妙级别就能够通过键找到对应的值并返回。那么很多人就会问redis为何这么快呢?除了其读写操作都在内存中执行和独特的网络模型设计,以及其巧妙的数据结构之外,还要归功于独特的键值对存储结构。对于redis的网络模型和具体的数据结构后续篇幅再进行讲解,此篇文章仅对于redis中键值对数据的存储进行分析。

2 键值对数据如何存储的

相信大多数人都知道redis的值有5种数据结构,分别为String(字符串),List(列表),Hash(哈希),Set(集合),Sorted Set(有序集合),而此篇文章主要探讨redis中的键值对数据是如何保存的。其实redis使用的是一个哈希表来存储所有的键值对数据,如下图所示:

看到这张图相信大家会想到另外一个java中的数据结构HashMap,是的优秀的数据结构设计总是被应用到各个地方。好了下面来分析一下为何redis也采用这种设计来保存键值对数据:

  • 首先,能够在O(1)的时间复杂度内快速找到需要的键值对数据,只需要将需要找的键通过hash算法找到对应的hash桶,即可找到对应的entry键值对数据。
  • 其次entry中存储的并非实际的键值对数据值,而是键值对对应的指针,这样不管采用哪种数据结构都能通过指针找到对应的值。

那么是不是这种设计就没有缺点了呢?相信很多了解HashMap数据结构的同学开始battle了,那就是随着数据的增多必然会出现哈希冲突,也就是可能会出现多个key的哈希值相同,那么多个entry就会同时出现在一个哈希桶中。当然我们能够想到这一点,redis作者肯定也就想到了这一点,那么是怎么进行设计呢?肯定很多同学都会想到了跟HashMap一样,将key哈希值相同的entry用链表进行保存(最新java版本的HashMap使用的为红黑树代替链表),每个entry之间使用指针进行相连,如下图所示

从图中可以看出当多个entry同时出现在一个哈希桶时,每个entry之间使用指针相连接,如图中所示的entry1,entry2,entry3使用next指针进行相连,因此无论有多少entry落入相同的哈希桶中都可以使用指针进行连接形成entry链表,也即是哈希冲突链。

解决了哈希冲突是不是就万事大吉了呢?相信有心的同学肯定会给出否定的答案。试想一下如果如果落入同一个哈希桶中的key很多,那么哈希冲突链就会变得很长,当查询的时候会遍历此链表(哈希冲突链),而链表的遍历最坏的情况时O(n)的,这对于快速读取数据的redis来说是不可能接受的。那redis是如何来解决这种情况呢?相信了解HashMap数据结构的已经给出了答案,那就是rehash操作,那么下面就来讲解一下redis是如何进行rehash操作的。

3 redis的rehash操作

rehash其实就是增加哈希桶的数量,从而使entry能够更分散的分布在不同的哈希桶中,从而将少entry在单个哈希桶中的冲突。

那么redis何时进行rehash呢?这个要取决于哈希表的负载因子(used/size),其中used为哈希表中保存的节点数量,size为哈希表大小。

a. 如果没有进行bgsave 元素数量达到hash长度时就会扩容(负载因子大于等于 1)

b. 如果进行bgsave,元素数量达到hash长度的5倍会进行扩容(负载因子大于等于 5)

仔细思考会发现哈希表的负载因子其实是动态变化的,那么就有人考虑,如果负载因子很低是不是会进行收缩操作呢?答案是会的,当负载因子小于0.1的时候redis就会进行收缩操作。

了解了redis何时进行rehash操作,那redis是如何进行rehash操作的呢?redis会分配两个hash表,比如为hash_table1和hash_table2,首先使用的hash_table1进行数据的插入和读取,初始时候hash_table2的大小为hahs_table1的两倍,在rehash过程中将hash_table1的数据进行重新分配到hash_table2中,然后使用hash_table2进行redis’数据的读取和写入,最后将hash_table1的空间释放做后续rehash使用。

看了上面的过程觉得rehash也挺简单的嘛,但事实却并非如此,试想一下在将hash_table1中的数据拷贝到hash_table2并进行重新分配的过程中,redis是阻塞的即不能对外提供服务,这对于高性能要求的redis是绝对不可能的,所以就出现了下面要讲解的渐进式rehash操作。

4 渐进式rehash

简单来讲就是redis每处理一个客户端请求,就将hash_table1中从第一个索引位置开始,将此索引下面所有entry重新映射到hash_table2中对应的索引位置。然后接着处理下一个客户端请求时候将第二个索引位置下面entry重新映射并拷贝到hash_table2上,以此进行直到hash_table1上所有entry都拷贝到对应的hash_table2的索引位置上,如下图所示。

通过渐进式rehash可以有效的将耗时的数据拷贝工作分摊到每个请求中,从而保证了redis的高可用。

总结:

通过上述讲解大家已经知道redis为何会在O(1)的时间复杂度快速找到key对应的value值,不过对于String类型的value,找到对应的哈希桶也就找到了对应的值,而对于集合类数值则需要根据集合类具体的数据结构再进行分析。对于集合类数据结构后续文章会继续进行分析。

好了本篇文章就到此结束了,希望大家跟我一起坚持学习积累。最后附上座右铭:成功的路上并不拥挤,因为坚持下来的人并不多。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档