开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么我的HashSet中有重复数据？

HashSet是Java中的一种集合类，它实现了Set接口，用于存储不重复的元素。HashSet的特点是无序且不允许重复元素。

如果在HashSet中出现了重复数据，可能是由于以下原因：

相同的对象被重复添加：HashSet使用对象的hashCode()方法和equals()方法来判断元素是否重复。如果两个对象的hashCode相同且equals方法返回true，则HashSet会认为它们是相同的元素，不会重复添加。如果你自定义的对象没有正确实现hashCode()和equals()方法，可能会导致HashSet无法正确判断元素是否重复。

解决方法：确保自定义对象正确实现hashCode()和equals()方法，以便HashSet能够正确判断元素是否重复。

基本数据类型的包装类重复添加：对于基本数据类型的包装类（如Integer、Double等），它们的equals()方法比较的是值而不是引用。因此，如果将相同的值的包装类对象重复添加到HashSet中，HashSet会认为它们是不同的元素。

解决方法：在添加基本数据类型的包装类对象之前，先判断HashSet中是否已经存在相同值的对象。

添加了相同的引用：HashSet判断元素是否重复是通过hashCode()和equals()方法来进行的。如果添加了相同的引用，即使它们的内容相同，HashSet也会认为它们是不同的元素。

解决方法：在添加引用类型的对象之前，先判断HashSet中是否已经存在相同引用的对象。

总结起来，HashSet中出现重复数据的原因主要是对象的hashCode()和equals()方法的实现问题，以及对基本数据类型的包装类的理解不准确。正确实现对象的hashCode()和equals()方法，以及正确处理基本数据类型的包装类，可以避免HashSet中出现重复数据的问题。

腾讯云相关产品：腾讯云提供了云数据库 TencentDB、云服务器 CVM、云原生容器服务 TKE 等产品，可以用于构建和管理云计算环境。具体产品介绍和链接地址请参考腾讯云官方网站。

相关搜索:为什么complete()会在我的数据中创建重复的行？为什么我在url<中有#为什么我在合并函数中有一些重复的行？为什么我在抓取时会得到重复的数据？为什么我收到重复的截击响应？为什么我有重复的月份编号为什么我的confusionMatrix中有NAs在做KNN？为什么我的jQuery Ajax json数组数据重复？为什么我的代码中有编译时错误为什么我的列表中有多余的null元素？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

批量导入Excel文件，为什么我导入的数据重复了？

小勤：大海，为什么我从Excel文件夹导入的数据重复了？大海：数据给我来试试看？...所以在后续编辑查询的时候我们首先要把合并工作表的内容过滤掉，否则以后刷新数据时会连合并工作表的数据一起导入。...【插入“表格”】或【Ctrl+T】或【套用表格格式】或【添加到数据模型】或【“从表格”新建查询】等等方式，使原始的普通的工作表数据装换成的“表格”，有些文章里，作者为了避免与普通工作表的差别，称之为“超级表...Table 和DefineName的情况在Excel中可通过以下方法识别（以下2图不是本文涉及的数据导入操作步骤）：了解这些内容之后，我们就可以按需要去选择数据以避免重复了。...Step-05：选择Sheet类别的工作表经过这样的筛选后，我们最终导入的数据就只有该工作簿中最原始的工作表数据，后续的操作就没有什么差别了，我们继续完成它。

2.8K5 0

Java内功系列-HashSet是如何保证元素不重复的

小憨： List是一个有序的集合，在内存是连续存储的，可以存储重复的元素，List查询快，增删慢； Set是一个无序的集合，在内存中不连续，不可以存储重复的元素，Set增删快，查询慢；面试官：那HashSet...客官，且看下文我们都知道HashSet存放的元素是不允许重复的，那么HashSet又是是如何保证元素不可重复的，你知道吗？...； Map中的key是不允许重复的，而你HashSet正好利用我Map中key不重复的特性来校验重复元素，妙哉妙哉。...确实，HashSet确实是利用Map的这一特性实现了元素的不重复特性，但是我们再来深挖一下，Map他又是如何来保证key不重复的呢？...与其说这篇文章是介绍HashSet如何保证元素不重复的，倒不如说Map是如何保证Key不重复的。

5781 0

hashmap和hashtable和hashset的区别_为什么要用hashmap

大家好，又见面了，我是你们的朋友全栈君。 1....HashMap 1) hashmap的数据结构 Hashmap是一个数组和链表的结合体（在数据结构称“链表散列“），如下图示：当我们往hashmap中put元素的时候，先根据...key的hash值得到这个元素在数组中的位置（即下标），然后就可以把这个元素放到对应的位置中了。...如果这个元素所在的位子上已经存放有其他元素了，那么在同一个位子上的元素将以链表的形式存放，新加入的放在链头，最先加入的放在链尾。...，而HashMap中的方法在缺省情况下是非同步的。

2967 0

PP-数据建模：明明删除了重复项，为什么还是说有重复值？

最近，有朋友在用Power Pivot构建表间关系的时候，出现了一个问题：明明我已经删除了重复项，但构建表间关系的时候，还是说我两个表都有重复的数据！...——按道理来说，Power Pivot出来也这么多年了，不至于会犯这么低级的错误！但是，我又绝对相信这些朋友既然能将问题提到这种程度，肯定也是做了删除重复项的操作。...于是，怀着好奇之心要来了数据，仔细查看对比后，终于发现了问题——这个情况真的很特殊，需要非常的注意！我下面模拟一份数据来简单说明一下这种情况。...如下图所示，以姓名列为基础进行删除重复项：结果没有找到重复值： 为什么呢？表中的第2/3,4/5,6/7,8/9看起来不是一样的吗？...那到底是为什么呢？我们先通过非重复计数函数来算一下，到底有没有重复的数据：好嘛！表中明明有9行数据，非重复计数的结果却是5！

3.2K2 0

为什么我抓不到baidu的数据包

最近，有位读者问起一个奇怪的事情，他说他想抓一个baidu.com的数据包，体验下看包的乐趣。但却发现“抓不到”，这就有些奇怪了。我来还原下他的操作步骤。...在wireshark中搜索baidu的包，发现一无所获这是为啥？到这里，有经验的小伙伴，其实已经知道问题出在哪里了。 为什么没能抓到包这其实是因为他访问的是HTTPS协议的baidu.com。...解密后的数据包内容此时再用http.host == "baidu.com"，就能过滤出数据了。解密后的数据包中可以过滤出baidu的数据包到这里，其实看不了数据包的问题就解决了。...四次握手中，客户端和服务端最后都拥有三个随机数，他们很关键，我特地加粗了表示。第一次握手，产生的客户端随机数，叫client random。...如果连接早已经建立了，数据都来回传好半天了，这时候你再去抓包，是没办法解密的。总结 • 文章开头通过抓包baidu的数据包，展示了用wireshark抓包的简单操作流程。

1.3K1 0

HashSet` 是一个不允许存储重复元素的集合，它的实现比较简单，只要理解了 `HashMap`，`HashSet` 就水到渠成...

HashSet HashSet 是一个不允许存储重复元素的集合，它的实现比较简单，只要理解了 HashMap，HashSet 就水到渠成了。...成员变量首先了解下 HashSet 的成员变量: private transient HashMap map; // Dummy value to associate...Object in the backing Map private static final Object PRESENT = new Object(); 发现主要就两个变量: map ：用于存放最终数据的...由于 HashMap 的 key 是不能重复的，所以每当有重复的值写入到 HashSet 时，value 会被覆盖，但 key 不会受到影响，这样就保证了 HashSet 中只能存放不重复的元素。...总结 HashSet 的原理比较简单，几乎全部借助于 HashMap 来实现的。所以 HashMap 会出现的问题 HashSet 依然不能避免。

4133 0

为什么我的BERT不行？

当然了，bad case分析这块我也聊了很多，多分析能发现其中的端倪，知道模型需要什么，该怎么处理，我再放一遍在这里，希望能好好阅读。...上面聊过不重复了。数据数量。越是复杂的模型，对数据的渴求度越大，尤其是场景比较偏的，需要更多数据集才行，少数据不足以让模型对你的数据有足够的了解。样本分布情况。参考数据不均衡的文章：领域性。...类似的思路其实我在这两篇文章里其实都有谈过：心法利器[44] | 样本不均衡之我见所以，很多时候你需要的可能是更多地挖掘数据，从日志，从更多渠道去找，这个可能比增强本身要好。...这里背后的逻辑可以参考我这篇文章：心法利器[45] | 模型需要的信息提供够了吗训练问题针对训练问题，其实也就是一个经验的问题了，多弄其实问题就会小很多，大家可以多去看各个论文使用的超参，一般调的差不多基本都不会有的...而文章本身的输出并非是按照这个思路走，而是从一些大家经常问的点深入来讨论，希望能从我的角度和风格来思考和回答问题。

1.2K2 0

明明加了唯一索引，为什么还是产生重复数据？

大家好，我是苏三，又跟大家见面了。文末留言送书啦！！！前言前段时间我踩过一个坑：在mysql8的一张innodb引擎的表中，加了唯一索引，但最后发现数据竟然还是重复了。到底怎么回事呢？...本文通过一次踩坑经历，聊聊唯一索引，一些有意思的知识点。 1.还原问题现场前段时间，为了防止商品组产生重复的数据，我专门加了一张防重表。...给商品组防重表创建了唯一索引之后，第二天查看数据，发现该表中竟然产生了重复的数据：表中第二条数据和第三条数据重复了。这是为什么呢？...在所有的业务查询的地方，都需要过滤掉已经删除的数据。通过这种方式删除数据之后，数据任然还在表中，只是从逻辑上过滤了删除状态的数据而已。其实对于这种逻辑删除的表，是没法加唯一索引的。 为什么呢？...前面聊过如果表中有逻辑删除功能，不太好加唯一索引，但通过文中介绍的三种方案，可以顺利的加上唯一索引。但来自灵魂的一问：如果某张表中，已存在历史重复数据，该如何加索引呢？

6442 0

上级居然不按套路出牌，居然要我统计不重复的数据！

我们以前有讲解过如何统计快速重复数值：EXCEL小技巧，筛选重复值！，但如果老板要你统计不重复的数据怎么办？所以今天我们讲解如何快速统计不重复的数据。...本次用到的是大家都熟悉的数据透视表，我们都知道，数据透视表他是有很多的功能的，那今天就用到了他的统计功能，是一个非常简单一个功能，但是他却很实用。...操作步骤创建数据透视表 ①单击【任一数据】→②点击【插入】→③选择【数据透视表】→ ④勾选【一个表或区域】→⑤在选择表/区域中选择【数据区域】→⑥勾选【现有工作表】→⑦选择【放置位置】→⑧勾选【将些数据添加到数据模型...设置数据透视表字段 ①把【姓名】字段拖入【行】→②把【月绩总分】拖入【值】。 ? 设置值字段在放透视表区域点击【鼠标右键】→选择【值字段设置】 ?...在弹出的窗口选择【值汇总方式】→接着选择【非重复计数】→点击【确定】。 ? 这样就完成了，结果展示： ?

6243 0

数据科学家：为什么我要离职……

数据科学家紧随其后，为13.2％。“这些数据来自由Stack Overflow对6万4千名开发者的调研。对此我深有体会，最近我刚换了新的数据科学工作。 为什么有那么多的数据科学家在找新工作呢？...在回答这个问题之前，我想声明的是我仍然是一名数据科学家。我热爱这份工作，我也不想阻止那些想成为数据科学家的人，因为这份工作有趣，刺激而有价值。本文的目的是向你们介绍这份工作背后不那么光鲜的一面。...01 期望与现实不符我认识的许多初级数据科学家(包括我自己)入行都是由于，在我们看来数据科学家使用新型的机器学习算法去解决复杂问题，从而对业务产生巨大影响。...我认为我能对全球各地的人们产生巨大的影响，而不仅仅是在公司内部。事实上，如果公司的核心业务不是机器学习(我的上家公司是媒体出版公司)，那么你所进行的数据科学工作可能只会带来少量的价值。...04 在孤立的团队中工作当我们看到成功的数据产品时，我们经常会看到具有智能功能的用户界面设计。重要的是当中有输出，能够被用户感知并解决相关问题。

1.2K15 0

数据科学家:为什么我要离职…

数据科学家紧随其后，为13.2％。“这些数据来自由Stack Overflow对6万4千名开发者的调研。对此我深有体会，最近我刚换了新的数据科学工作。 为什么有那么多的数据科学家在找新工作呢？...在回答这个问题之前，我想声明的是我仍然是一名数据科学家。我热爱这份工作，我也不想阻止那些想成为数据科学家的人，因为这份工作有趣，刺激而有价值。本文的目的是向你们介绍这份工作背后不那么光鲜的一面。...我认为我能对全球各地的人们产生巨大的影响，而不仅仅是在公司内部。事实上，如果公司的核心业务不是机器学习(我的上家公司是媒体出版公司)，那么你所进行的数据科学工作可能只会带来少量的价值。...在我的上一份工作中，我做了大量这类工作。尽管这会让人沮丧，但却是工作的必要组成部分。 3. 数据方面的全能专家公司中的领导层往往不太明白“数据科学家”的含义。...在孤立的团队中工作当我们看到成功的数据产品时，我们经常会看到具有智能功能的用户界面设计。重要的是当中有输出，能够被用户感知并解决相关问题。 ?

6407 0

MySQL数据库的默认隔离级别为什么是可重复读

要知道，越高的隔离级别，能解决的数据一致性问题越多，理论上性能损耗更大，可并发性越低。...隔离级别依次为>：串行化 > RR > RC >读未提交在SQL标准中，前三种隔离级别分别解决了幻象读、不可重复读和脏读的问题。那么，为什么MySQL使用可重复读作为默认隔离级别呢？...statement:记录的是修改SQL语句 row：记录的是每行实际数据的变更 mixed：statement和row模式的混合那Mysql在5.0这个版本以前，binlog只支持STATEMENT这种格式...而这种格式在读已提交(Read Commited)这个隔离级别下主从复制是有bug的，因此Mysql将可重复读(Repeatable Read)作为默认的隔离级别！...因此由于历史原因，mysql将默认的隔离级别设为可重复读(Repeatable Read)，保证主从复制不出问题。

2.1K1 0

MySQL数据库中有哪些不同的表格？

在 MySQL 中，数据表是一个或多个字段的集合（有组织排列），并且每个字段可以存储特定的类型数据。...在 InnoDB 中，保存数据库的文件称为表空间（tablespace），InnoDb使用聚簇索引，数据的物理存储顺序就是索引的顺序。...3、MEMORY：Memory 引擎将数据存储在内存中，因此比较适合用于速度要求高、数据持久性要求少的应用。如果服务器重新启动，保存在 Memory 引擎表格中的数据将消失。...由于其存储方式的局限性，它仅适用于比较小的数据库。 4、Heap：Heap 存储引擎是 MySQL 的一个轻量级存储引擎。...CSV 格式是一种文本文件格式，其中不同字段之间用逗号分隔开，在需要进行大批量数据导入的场景下具有较高的优势。 6、Blackhole：Blackhole 存储引擎向接受但并不真正记录或保留任何数据。

2483 0

为什么我的数据库应用程序这么慢？

专注于一个小型可重复的工作流将让您隔离问题。接下来的问题当然是为什么要花10秒钟？缩小问题的第一个也是最简单的方法是将应用程序尽可能靠近SQL Server，在同一台机器上或在同一个LAN上运行。...确保数据包由“否”列排序，因为这将确保数据包按照发送/接收的顺序。...TDS数据包，“增量”列现在将显示先前请求的最后一个请求数据包与从SQL Server发回的第一个响应数据包之间的时间。...使用的带宽显示为“字节A - > B”和“字节B - > A” 在高延迟网络上运行应用程序时重复捕获，并再次查看使用的带宽。如果两者之间存在较大的差异，那么您可能带宽受限。...一个聊天应用程序是发送许多重复和不必要的查询，使得更多的网络往返行程比必要。通常，这些应用程序最初是在高速LAN上开发并部署的，所以“chattiness”从来没有真正引起问题。

2.2K3 0

投稿 | 现阶段我为什么不看好纯粹的数据交易?

但是短期内，我仍然不看好数据交易，因为现阶段的数据交易缺乏了必要的基础构建 ?...尽管大数据交易平台建设正值爆发期，数据交易号称的市场规模也在不断壮大，同时也有国家大力的政策支持。但是短期内，我仍然不看好数据交易，因为现阶段的数据交易缺乏了必要的基础构建。...但在现阶段，大数据刚刚起步，绝大多数的行业、企业对于本身数据、数据如何使用并不清晰。所谓认知理解基础，指的是知道“我能用数据做什么”、“别人的数据对我有什么作用”、“我的数据对别人有什么作用”等等。...但未来这种态度必须要转变，因为跨界数据的整合才能够带来大数据应用的爆发。 4数据交易要蓬勃发展，把数据“拿出来”是关键我认为数据交易是趋势、是未来，但由于不具备上述基础，现阶段还很难发展。...结语：我曾经提出“技术不是大数据第一生产力，数据交易才能带来应用的爆发(链接)”，但数据交易绝对不是纯粹的数据原材料买卖，否自在未来将会丧失核心竞争力，借助大数据做一些现在做不到的事情，才是大数据交易蓬勃发展的未来

1.1K4 1

面试中有哪些经典的数据库问题？

二、为什么使用数据索引能提高效率 1、数据索引的存储是有序的 2、在有序的情况下，通过索引查询一个数据是无需遍历索引记录的 3、极端情况下，数据索引的查询效率为二分法查询效率，趋近于 log2(N) 三...哈希索引具有绝对优势（前提是：没有大量重复键值，如果大量重复键值时，哈希索引的效率很低，因为存在所谓的哈希碰撞问题。）...，如果存储的数据重复度很低（也就是说基数很大），对该列数据以等值查询为主，没有范围查询、没有排序的时候，特别适合采用哈希索引，例如这种SQL： select id,name from table where...(而B 树的非终节点也包含需要查找的有效信息) ? 七、为什么说B+比B树更适合实际应用中操作系统的文件索引和数据库索引？ 1、B+的磁盘读写代价更低B+的内部结点并没有指向关键字具体信息的指针。...3、如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列。

7452 0

MySQL - 当LIMIT 进行分页时，为什么出现了重复数据

撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> ?...问题描述数据分页时需要根据数据记录创建时间create_time字段倒序，即使用order by create_time desc，但是我们会发现，前端进行请求时获取的数据并不正确，分页中出现了一定的重复数据...问题原因期初还很好奇，总数没问题，总查询也没问题，为什么数据会重复了，然后会把部分数据给覆盖了。...（且，两次查询出来的数据和总查询数据不一样了）后来发现，当SQL中ORDER BY待排序字段值相同时，系统对数据的排序可能变得随机，即一会儿这条数据在前面，一会儿这条数据在后面了，所以当翻页的时候我们很容易便看到了重复的数据...，这也是导致我们分页查询时出现重复数据的问题原因。

4.3K2 0

面试中有哪些经典的数据库问题？

二、为什么使用数据索引能提高效率 1、数据索引的存储是有序的 2、在有序的情况下，通过索引查询一个数据是无需遍历索引记录的 3、极端情况下，数据索引的查询效率为二分法查询效率，趋近于 log2(N) 三...哈希索引具有绝对优势（前提是：没有大量重复键值，如果大量重复键值时，哈希索引的效率很低，因为存在所谓的哈希碰撞问题。）...，如果存储的数据重复度很低（也就是说基数很大），对该列数据以等值查询为主，没有范围查询、没有排序的时候，特别适合采用哈希索引，例如这种SQL： select id,name from table where...(而B 树的非终节点也包含需要查找的有效信息) ? 七、为什么说B+比B树更适合实际应用中操作系统的文件索引和数据库索引？ 1、B+的磁盘读写代价更低B+的内部结点并没有指向关键字具体信息的指针。...3、如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列。

1.2K0 1

面试中有哪些经典的数据库问题？

二、为什么使用数据索引能提高效率 1、数据索引的存储是有序的 2、在有序的情况下，通过索引查询一个数据是无需遍历索引记录的 3、极端情况下，数据索引的查询效率为二分法查询效率，趋近于 log2(N) 三...哈希索引具有绝对优势（前提是：没有大量重复键值，如果大量重复键值时，哈希索引的效率很低，因为存在所谓的哈希碰撞问题。）...，如果存储的数据重复度很低（也就是说基数很大），对该列数据以等值查询为主，没有范围查询、没有排序的时候，特别适合采用哈希索引，例如这种SQL： select id,name from table where...(而B 树的非终节点也包含需要查找的有效信息) 七、为什么说B+比B树更适合实际应用中操作系统的文件索引和数据库索引？ 1、B+的磁盘读写代价更低B+的内部结点并没有指向关键字具体信息的指针。...3、如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列。

8403 0

面试中有哪些经典的数据库问题？

二、为什么使用数据索引能提高效率 1、数据索引的存储是有序的 2、在有序的情况下，通过索引查询一个数据是无需遍历索引记录的 3、极端情况下，数据索引的查询效率为二分法查询效率，趋近于 log2(N)...哈希索引具有绝对优势（前提是：没有大量重复键值，如果大量重复键值时，哈希索引的效率很低，因为存在所谓的哈希碰撞问题。）...，如果存储的数据重复度很低（也就是说基数很大），对该列数据以等值查询为主，没有范围查询、没有排序的时候，特别适合采用哈希索引，例如这种SQL： select id,name from table where...(而B 树的非终节点也包含需要查找的有效信息) 七、为什么说B+比B树更适合实际应用中操作系统的文件索引和数据库索引？ 1、B+的磁盘读写代价更低B+的内部结点并没有指向关键字具体信息的指针。...3、如果分区字段中有主键或者唯一索引的列，那么多有主键列和唯一索引列都必须包含进来。即：分区字段要么不包含主键或者索引列，要么包含全部主键和索引列。

7892 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭