前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >哈希冲突常用解决方法

哈希冲突常用解决方法

作者头像
恋喵大鲤鱼
发布2020-11-12 11:47:29
4.1K0
发布2020-11-12 11:47:29
举报
文章被收录于专栏:C/C++基础C/C++基础
在这里插入图片描述
在这里插入图片描述

1.基本概念

哈希算法:根据设定的哈希函数H(key)和处理冲突方法将一组关键字映象到一个有限的地址区间上的算法。也称为散列算法、杂凑算法。

哈希表:数据经过哈希算法之后得到的集合。这样关键字和数据在集合中的位置存在一定的关系,可以根据这种关系快速查询。

非哈希表:与哈希表相对应,集合中的数据和其存放位置没任何关联关系的集合。

由此可见,哈希算法是一种特殊的算法,能将任意数据散列后映射到有限的空间上,通常计算机软件中用作快速查找或加密使用。

哈希冲突:由于哈希算法被计算的数据是无限的,而计算后的结果范围有限,因此总会存在不同的数据经过计算后得到的值相同,这就是哈希冲突。

2.解决哈希冲突的方法

解决哈希冲突的方法一般有:开放寻址法、链地址法(拉链法)、再哈希法、建立公共溢出区等方法。

2.1 开放寻址法

开放寻址法又叫做开放定址法开地址法,从发生冲突的那个单元起,按照一定的次序,从哈希表中找到一个空闲的单元。然后把发生冲突的元素存入到该单元的一种方法。开放定址法需要的表长度要大于等于所需要存放的元素。

在开放定址法中根据探查序列生成方式的不同,细分有:线性探查法平方探查法双散列函数探查法伪随机探查法等。

开放定址法的缺点在于删除元素的时候不能真的删除,否则会引起查找错误,只能做一个特殊标记。只到有下个元素插入才能真正删除该元素。

2.1.1 线性探查法

线行探查法是开放定址法中最简单的冲突处理方法,它从发生冲突的单元起,依次判断下一个单元是否为空,当达到最后一个单元时,再从表首依次判断。直到碰到空闲的单元或者探查完全部单元为止。

2.1.2 平方探查法

平方探查法即是发生冲突时,用发生冲突的单元 d[i], 加上 1²、 2² 等。即 d[i] + 1²,d[i] + 2², d[i] + 3²… 直到找到空闲单元。

在实际操作中,平方探查法不能探查到全部剩余的单元。不过在实际应用中,能探查到一半单元也就可以了。若探查到一半单元仍找不到一个空闲单元,表明此散列表太满,应该重新建立。

2.1.3 双散列函数探查法

双散列函数探查法又叫做双重散列探查法(出自算法导论),是开发寻址法中的最好方法之一,因为它所产生的探查序列具有随机性。

关于叫法推荐叫双散列函数探查法,因为双重散列探查法的名字有歧义,是使用两个散列函数还是使用一个散列函数做两次散列计算呢,没有那么直白。

这种方法使用两个散列函数 h1 和 h2。其中 h1 和前面的 h 一样,以关键字为自变量,产生一个 0 至 m-1 之间的数作为散列地址;h2 也以关键字为自变量,产生一个 1 至 m-1 之间的并和 m 互素的数(即 m 不能被该数整除)作为探查序列的地址增量(即步长)。这样做是使探查序列能够分布在整个 Hash 表。

2.1.4 伪随机探查法

具体实现时,建立一个伪随机数发生器来生成探查序列。

例如,假设哈希表长度 m=11,哈希函数为:H(key)= key % 11,则 H(47)=3,H(26)=4,H(60)=5,假设下一个关键字为 69,则H(69)=3,与 47 冲突。如果用伪随机探测再散列处理冲突,且伪随机数序列为:2,5,9,…,则下一个哈希地址为 H1=(3+2)%11=5,仍然冲突,再找下一个哈希地址为 H2=(3+5)%11=8,此时不再冲突,将 69 填入 8 号单元。

2.1.5 小结

四种不同的开放寻址法,根据其探查序列可以看出,线性探查法的步长值固定为 1;平方探查法步长值是探查次数 i 的两倍减 1;双散列函数探查法,其探查序列的步长值是同一关键字的另一散列函数的值。对于伪随机探查法,探查序列是随机的,所以步长也是随机的。

2.2 链地址法(拉链法)

链接地址法的思路是将哈希值相同的元素构成一个同义词的单链表,并将单链表的头指针存放在哈希表的第i个单元中,查找、插入和删除主要在同义词链表中进行。链表法适用于经常进行插入和删除的情况。

如下一组数字:(32、40、36、53、16、46、71、27、42、24、49、64),哈希表长度为13,哈希函数为 H(key)=key%13,则链表法结果如下:

代码语言:javascript
复制
0       
1  -> 40 -> 27 -> 53 
2
3  -> 16 -> 42
4
5
6  -> 32 -> 71
7  -> 46
8
9
10 -> 36 -> 49
11 -> 24
12 -> 64

注意:链地址法是主流开发语言中 HashMap 冲突的解决办法,如 Java Go 等。以 Java 为例,JDK1.7 完全采用单链表来存储同义词,JDK 1.8 则采用了一种混合模式,对于链表长度大于8的,会转换为红黑树存储。

2.3 再哈希法

就是同时构造多个不同的哈希函数:

代码语言:javascript
复制
Hi = RHi(key) i= 1,2,3 ... k;

其中 RHi 为不同的哈希函数。当 H1 = RH1(key) 发生冲突时,再用 H2 = RH2(key) 进行计算,直到冲突不再产生,这种方法不易产生聚集,但是增加了计算时间。

2.4 建立公共溢出区

将哈希表分为公共表和溢出表,当溢出发生时,将所有溢出数据统一放到溢出区。


参考文献

[1] 简书.解决哈希冲突的常用方法分析 [2] 殷建平,徐云,王刚等.算法导论(原书第3版).C11.4开放寻址法.P151-155 [3] 张乃孝.算法与数据结构.C6.5.3碰撞的处理.P189-194

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-11-08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.基本概念
  • 2.解决哈希冲突的方法
    • 2.1 开放寻址法
      • 2.1.1 线性探查法
      • 2.1.2 平方探查法
      • 2.1.3 双散列函数探查法
      • 2.1.4 伪随机探查法
      • 2.1.5 小结
    • 2.2 链地址法(拉链法)
    • 2.3 再哈希法
    • 2.4 建立公共溢出区
    • 参考文献
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档