前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你真的了解HashSet吗?

你真的了解HashSet吗?

作者头像
用户1260737
发布2019-10-14 14:48:41
5910
发布2019-10-14 14:48:41
举报
文章被收录于专栏:趣谈编程趣谈编程
本文基于JDK 1.7 进行分析

学生太多的烦恼

一尘啊,咱们班有没有一个叫悟净的人啊。

这个...,我也不太清楚,师傅的徒弟太多了,我也记不完。

那你想个办法帮师傅找一下吧。

好的。

只见一尘号召了所有的弟子,把他们的名字都到他自己构造出的一个List集合里面去了。

这里一尘选择了 ArrayList

然后用 contains() 方法判断输入的那个名字在没在 List 集合里。

这样的话你每查一个学生都要从头开始遍历一遍List,这样数据量大的时候比较费时(复杂度O(n)),并且我们寺院每个人的名字都独一无二,没有重复的,所以你构造链表的时候还要去判断重复元素。

结果:

那该怎么办呢?

HashSet

Java中有一个集合比较适合来存储这些元素,那就是HashSet。

HashSet 它实现了 Set 接口,而Set集合的特性就是没有重复元素,所以他可以自动的去掉重复元素。并且它的底层是使用 散列表来实现的,所以它的一些常用操作。

不理解散列表的可以看:

神速Hash(上)

神速Hash(下)

什么是HashMap?

比如:

添加元素add(),移除元素remove(),是否包含某个元素 contains() 的时间复杂度都为O(1)

到时候每查一个人,你只需要判断它在没在集合里,你可以用 contains() 来判断。

和List在使用上没有多大区别,把List换成Set就行。

HashSet会自动帮你去重。

结果

源码分析

师傅师傅,我听山下的李公子老说临界区,这个临界区是个什么东西呀?

哇,这个HashSet好神奇,既能去重,还速度这么快,它是怎么做到的?

其实他的底层是由HashMap来实现的。

构造函数

可以看到,它的构造函数其实是new了一个HashMap。

这个 map 是HashSet的一个成员变量

HashMap底层使用了散列表,所以速度很快

add() 方法

HashSet 的 add() 方法其实就是调用了HashMap的 put() 方法。

可以看到,在用HashSet的add() 方法的时候,其实就是将你要 add 的元素 e 作为 HashMap的 Key,把 PRESENT 作为Value进行存储的。

PRESENT 是一个固定不变的 Object

元素被 add 进 HashSet 中的样子是这样的:

HashSet容量为 8

当 HashSet 被 add() 进两个相同的元素的时候,此时 HashMap 中之前存在的Key不会发生改变

只是 Value 被替换了,然后就return了。这样也就达到了去重的目的(第二个重复的Key没有被添加进来)

此段代码在HashMap的 put() 方法之中

contains()方法

方法 contains() 是判断集合里有没有指定的元素。理解了HashMap,这个实现起来就不难。

同样,这里也是调用HashMap的 containsKey() 方法。在此就不赘述了。

hashCode() 和 equals()

师傅,我记得附近的尼姑庵也有一个叫一尘的,她如果要拜你为师,那Set里装什么鸭。

这是个好问题,这个时候需要构建一个Student类。

然后再主程序中加入到Set中就行了。

看一下下面的代码:

两个名字和性别都一样的学生,按理来说应该是同一个人了(逻辑上一样),但是它的 set 集合输出却有两个一尘,都是男的,没有去重。

哦,怎么会这样?

就是因为你没有重写 hashCode 和 equals 方法

没有重写 hashCode() ,那么两个逻辑上相同的对象作为 Key 经过 hash() 函数后就有可能落在不同的位置上。

如上图,HashMap中就存在了两个逻辑一样的Student,只是他们所在的位置(桶)不一样。

这是为什么呢?

因为如果不重写hashCode,那么hash函数就会调用Object的hashCode.

可以看到 会调用 khashCode. k就是你add 进去的 Key,对 Key不重写 hashCode 就会默认调用父类Object的 hashCode方法。

而 Object 的 hashCode 是 native 的,这个 hashCode 根据虚拟机的策略可能会返回和对象地址相关联的值。

你上面new的两个Student虽然逻辑上一样,但是两个对象的地址不一样,所以它们的hashCode可能会根据地址来计算,就会产生不同的hashCode,从而落在了不同的位置(桶)中了。

因为key在被put进map中的时候,它到底落在哪个位置(桶)是由它的hashCode决定的。

哦,原来是这样,那我重写了hashCode 之后呢?还要重写 equals 吗?

那是肯定的

HashMap中的put方法

这里可以看到,就算你的两个对象的hashCode一样(e.hash==hash),落在了同一个位置(桶),但是如果你不重写equals方法,那么在判断HashMap集合里是否存在相同的元素的时候,就会根据Object的equals方法来判断。

可以看到Object的equals是比较的对象的地址,而你new了两个对象,他们的地址不一样,所以这里就不 return,而是把你的逻辑相同的Student加入到 HashMap之中

这样还是有重复元素。

哦,原来是这样。那该怎么重写equals呢。

只见慧能随手一写:

就这样,只要保证equals表示的是对象的逻辑相等(名字和性别相等),并且相同对象的hashCode相等就行了(hashCode还要尽可能分布均匀)。

重写hashCode和equals请参照Effective Java一书的内容。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 趣谈编程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档