在数据帧中删除重复项？

文章/答案/技术大牛

发布

2回答

Pandas通过为数据帧之间的每个重复行仅删除一行来合并两个数据帧

、、

我有两个数据帧，我正在合并它。在合并时，它应该删除重复项。但是对于帧1中的一个重复行，它应该只删除帧2中的一个重复行，即使有两个这样的行，如下面的df1： colA colB colC 1 1 2 1 2 3 1 1 2 结果： c

浏览 32提问于2021-01-23得票数 1

回答已采纳

2回答

Pandas不删除行

、

我正在尝试删除数据帧中的所有重复项。removeDuplicates = data.drop_duplicates() 第一行应该保留，所以第二次出现的县1也就是重复的应该被删除。但是，当我对此运行drop duplicates时，没有任何反应编辑:不要紧，它打印的是不同的数据帧。不应

浏览 0提问于2021-02-17得票数 0

2回答

删除一行中的所有重复值，同时使用pandas保留该行(python)

、

以下是数据帧的sub_set。我想删除每一行中所有重复的项。例如，在第一行中，最后一个值dizziness应该被删除，因为在第1行的列WD2中已经存在dizziness。输出应如下所示：我知道如何删除列中的重复项，但我不知道如何连续删除重复项。提前谢谢。

浏览 9提问于2017-01-27得票数 0

回答已采纳

2回答

查找重复行的索引

、、

在R中复制的函数执行重复的行搜索。如果我们想要删除重复项，我们只需要写df[!duplicated(df),]，然后重复项就会从数据帧中删除。但是如何找到重复数据的索引呢？如果duplicated在某一行上返回TRUE，这意味着这是数据帧中第二次出现这样的行，可以很容易地获

浏览 3提问于2012-09-19得票数 78

回答已采纳

2回答

如何用JAVA实现Spark SQL中基于单列的重复行删除

、

我需要了解如何使用Java在Spark SQL中基于single从数据框中删除重复行。如何将此步骤转换为Java中的Spark SQL？

浏览 11提问于2017-07-25得票数 1

2回答

在Python中计算if (COUNTIF)和add到数据帧

、、、、

我有一个数据帧，它有很多重复项。我找到了许多解决方案来查找重复项的数量，但不是我想要的方式。如果新列的重复数小于或等于2，有没有办法计算新列中的重复数？数据帧如下所示： NAME1 Peter3 Jack5 Luke 但我希望它看起来像这样： NAME CountPeter 0 1 Peter

浏览 22提问于2019-02-13得票数 2

回答已采纳

1回答

如何选择要删除的重复行？

、、、

我正在尝试将一个新数据集与一个旧数据集合并，每个表类型都有一个包含主键的SeqString，以及一个旧数据帧和一个具有相同模式的新数据帧。如果主键列值匹配，我想用新数据帧中的行替换旧数据帧中的行，如果它们不匹配，我想将行添加到。2")))我添加了一个由1和2组成的文字列，以跟踪哪些行是哪些行

浏览 17提问于2016-08-05得票数 0

回答已采纳

1回答

在pySpark中删除重复项的最佳方法

、、

我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧中的重复项。但是由于大量的混洗和数据倾斜，作业被挂起了。为此，我使用了5个内核和30 do的内存。我正在执行dropDuplicates()的数据大约是1,200万行。考虑到数据倾斜和混洗，请给我建议在spark中删除重复项的最优方法。

浏览 0提问于2018-09-25得票数 0

4回答

如何在增量表中删除重复项？

、、

有一个从增量表中删除数据的函数：deltaTable.delete(col("date") < "2017-01-01") 但是，有没有办法以某种方式删除重复项呢？我不想将整个表作为数据帧读取，删除重复

浏览 2提问于2020-05-08得票数 3

1回答

如何显示DF中在python的一列中有重复值的所有行？

、、

我有两个数据帧，我正尝试基于一个列(df['Number and postcode'])合并它们。但是，该列有许多重复值，因此合并不起作用(它会给出这样的错误：#检查重复的值)。另一个问题是df1['Number and postcode']也可能有许多重复的值。我该如何解决这个问题呢？

浏览 5提问于2020-05-13得票数 0

1回答

使用Pandas将重复项提取到新的数据帧中

、、、

我有一个很大的数据框，有很多列。其中一列应该是唯一的ID，另一列是年份。遗憾的是，唯一ID列中存在重复项。我知道如何生成所有重复项的列表，但实际上我想要做的是将它们提取出来，以便只保留第一个条目(按年)。--123 1314154 1415233 1314233 1516ID Year -------

浏览 36提问于2018-08-28得票数 1

回答已采纳

3回答

、、

考虑下面的数据帧片段，它已按Winner_Count排序。我在这里看到的一些帖子建议，让groupby对象出现需要比Wes McKinney的视频中显示的内容多得多的工作，这很奇怪。编辑：所需的数据集将如下所示:每个参与者对应一行，而在原始数据集中，将有几行。

浏览 19提问于2017-07-23得票数 2

回答已采纳

1回答

从数据帧中删除重复项

、

我有一个类似下面示例的数据帧"df“。我想使用address和business_id作为唯一的关键字，并根据address和business_id的组合过滤数据帧，以便它只具有唯一的记录。代码：示例数据： address business_id

浏览 3提问于2017-10-26得票数 0

3回答

Pandas Groupby和在多列中查找重复项

、、、

我有一个数据帧，我想按'Value_pack‘列分组，检查是否有2个或更多的'Value_pack’具有相同的'value‘和'discount’。(重复) Value_pack value discount val 1

浏览 2提问于2021-07-08得票数 0

13回答

python pandas:按列A删除重复项，将值最高的行保留在列B中

、、

我有一个数据帧，其中A列有重复的值。我想删除重复项，将值最高的行保留在B列。所以这就是：1 102 303 10A B2 40Wes添加了一些很好的功能来删除重复项：。我猜可能有一种简单的方法可以做到这一点-也许就像在删除重复数据之前对数据帧进行排序一样简单-但我不太了解

浏览 3提问于2012-09-19得票数 239

回答已采纳

1回答

如何比较两个表中的多列并找出重复的列？

、、

我有两个数据帧数据帧1 ? 数据帧2 ? ID列在两个表中不唯一。我想要比较两个表中除ID之外的所有列，并打印唯一行预期输出 ? 我尝试了“isin”函数，但不起作用。每个数据帧大小为150000，我删除了两个表中的重复项。请建议如何做到这一点？

浏览 20提问于2020-11-03得票数 0

1回答

如何以平衡的方式进行drop_duplicates？

、、

我想以一种平衡的方式从数据帧中删除重复项。目前，df.drop_duplicates()有一个参数keep，您可以在其中决定保留第一个还是最后一个出现的内容。也就是说，我有这个数据帧，有两列:文本和类别，看起来很平衡，但有重复项：再次应用drop_duplicates()并绘制，将如下所示：df['C

浏览 20提问于2021-03-08得票数 0

3回答

如何删除pandas数据帧中的重复项，但保留基于特定列值的行

、、、、

我有一个有NBA球员统计数据的pandas数据框，我想删除重复的球员行。有重复的，因为有些球员在2020-2021赛季在多支球队踢球，我想删除这些重复的东西。然而，对于这些在多个球队踢球的球员，还会有一个行，其中包含该球员在所有球队的组合统计数据和团队标签'TOT'，这表示该球员在本赛季在两支或更多球队比赛的事实。当我删除<e

浏览 1提问于2021-02-02得票数 0

2回答

Pandas Dataframe删除了很多行

、、、

我有一个有很多tweet的数据帧，我想删除重复的内容。推文存储在fh1.df' tweets‘中。我计算了非重复项的数量。J重复的数量。在else语句中，我删除了重复项的行。但在其他情况下，我不知道为什么，他删除了很多行，因为在for循环(1/10)之后，我的数据帧的形状要

浏览 27提问于2019-01-25得票数 0

1回答

在执行dropDuplicates()之后，我在计数时得到了不同的计数

、、、

我在一个包含Region,store和id子集的数据帧中进行了dropDuplicates。该数据帧包含一些其他列，如latitude, longitude, address, Zip, Year, Month...当我对派生数据帧进行计数时，我得到的是一个常量值，但当我对选定年份进行计数时，比如2018年，我在运行df.count()时会得到不同的计数有人能解释一下为什么会发生这种情况吗？) spark

浏览 18提问于2021-01-24得票数 0

点击加载更多

Pandas通过为数据帧之间的每个重复行仅删除一行来合并两个数据帧

Pandas不删除行

删除一行中的所有重复值，同时使用pandas保留该行(python)

查找重复行的索引

如何用JAVA实现Spark SQL中基于单列的重复行删除

在Python中计算if (COUNTIF)和add到数据帧

如何选择要删除的重复行？

在pySpark中删除重复项的最佳方法

如何在增量表中删除重复项？

如何显示DF中在python的一列中有重复值的所有行？

使用Pandas将重复项提取到新的数据帧中