程序猿的日常——HashMap的相关知识

背景知识

哈希冲突

哈希是指通过某种方法把数据转变成特定的数值,数值根据mod对应到不同的单元上。比如在Java中,字符串就是通过每个字符的编码来计算、数字是本身对应的值等等,不过就算是再好的哈希方法,也有可能出现两个不同的对象hash值相同的情况。如果在HashMap中,hashcode相同,它们就会被分配到对应的存储位置,此时就会出现冲突——也叫做哈希冲突。

解决哈希冲突的方法有很多种:

  1. 开放地址探测法:即如果出现哈希冲突,则按照一定的规则继续选择位置,如线性探测法再、二次探测再、伪随机探测等等。
  2. 链地址法:如果出现冲突,则在冲突的位置后面形成链表进行存储。HashMap就是通过这种方式实现的
  3. 再哈希法:这种方法是再换另一个哈希方法寻找存储的位置。

hashCode和equals

首先hashcode是经过一定的方法映射出的数值,而equals如果没有重写的话,是对比了每个内部的属性。总结的来说,如果两个对象hashcode相同,它们未必相等;如果hashcode不同,肯定不等。从另一个角度说,如果两个对象equals相等,它们肯定相等;如果equals不同,则它们不同。

那么肯定会有人疑问,那还要hashcode干嘛咧?Hashcode其实就是在hashMap或者hashset进行快速比较的时候有用,可以快速的判断对像是否不同,如果hashcode相同,则再继续对比equals方法。这样可以节省大量的时间。

HashMap

HashMap允许null的key和value,HashMap根HashTable很像,只不过非线程安全并且允许Null值。

有两个参数会影响Map的性能,分别是初始容量initial capacity和负载参数load facotr(确定了什么时间增加hash table的容量)。当容量超过load factor*initial capacity时,就会进行扩容,然后执行rehash操作。

默认load factor时0.75,它基本已经能提供一个不错的性能效果了。不过在使用的初期可以预估一下数据量,直接设置一个比较适合的初始值。

注意:HashMap不是线程安全的,可以通过

Map m = Collections.synchronizedMap(new HashMap(...))

实现线程安全的map.

创建

transient Node<K,V>[] table;
transient Set<Map.Entry<K,V>> entrySet;
int threshold;
final float loadFactor;

新增

如果key之前出现过,那么将会用新的value代替旧的value

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

主要的代码在这里:

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    // 如果每个链表长度超过8,那么就转为红黑树
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

对于写操作的场景:

  1. 先会经过hash计算hashcode然后与size进行&操作,判断存储的位置
  2. 如果存储的位置没有节点,则直接写入
  3. 如果存储的位置有节点,且是树节点,则向树中插入节点
  4. 如果存储的位置有节点,不是树节点(而是普通的链表),则进行头插。但是会判断当前链表的长度,如果超过设置的阈值(默认是8),就会把链表转化成树。

更新的时候也是上面的操作流程,只不过在对比hashcode相同时,还会检查key是否equals

读取和删除基本上也是上面的套路。

为什么非线程安全

这个主要是因为在rehash的时候由于table[]后面接的是链表,而hashMap还是采用头插的形式。因此如果有不同的线程同时进行rehash,就可能导致链表形成环形,造成死循环。

具体的可以参考网上的文章:https://coolshell.cn/articles/9606.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

P1965 转圈游戏

题目描述 n 个小伙伴(编号从 0 到 n-1)围坐一圈玩游戏。按照顺时针方向给 n 个位置编号,从0 到 n-1。最初,第 0 号小伙伴在第 0 号位置,第 ...

39980
来自专栏灯塔大数据

每周学点大数据 | No.23 外排序(二)

No.23期 外排序(二) Mr. 王:接下来我们用一个例子对磁盘归并排序进行说明。先来约定讨论的参数:N=24,M=8,B=2。 小可:嗯,一共有2...

36660
来自专栏犀利豆的技术空间

Redis 的基础数据结构(二) 整数集合、跳跃表、压缩列表

上篇文章写了 Redis 基础数据结构的可变字符串、链表、字典。大家可以点击链接查看。今天我们继续研究 Redis 的基础数据结构。

11230
来自专栏闻道于事

Java异常处理中的恢复模型

30240
来自专栏机器人网

只会G代码不会宏,就别说你是数控师傅

一、变量 普通加工程序直接用数值指定G代码和移动距离;例如,GO1和X100.0。使用用户宏程序时,数值可以直接指定或用变量指定。当用变量时,变量值可用程序或用...

29240
来自专栏祥子的故事

Python编程快速上手 让繁琐工作自动化 | 第三章 :实践项目

32460
来自专栏debugeeker的专栏

《coredump问题原理探究》Linux x86版5.7节C风格数据结构内存布局之结构体数组

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xuzhina/article/detai...

9210
来自专栏林德熙的博客

C#命令行解析工具

第一个方法是不需要安装任何的库,这个方法是性能很高,但是封装不好。第二个方法是使用 CommandLineParser 库,这个库提高很好的封装但是性能会比较差...

44110
来自专栏用户画像

7.7.4 置换选择排序(生成初始归并段)

7.7.3讨论了如何使用m路归并来减少磁盘访问次数。从第7.7.2的讨论可知,减少初始归并段个数r也可以减少归并趟数S。若总的记录个数为n,每个归并段的长度为L...

16420
来自专栏对角另一面

lodash源码分析之数组的差集

本文为读 lodash 源码的第十七篇,后续文章会更新到这个仓库中,欢迎 star:pocket-lodash

14140

扫码关注云+社区

领取腾讯云代金券