从数据帧中删除反向重复项

文章/答案/技术大牛

发布

5回答

、、

我有一个包含两列的数据框，A和B。在这种情况下，A和B的顺序并不重要；例如，我认为(0,50)和(50,0)是重复的。在pandas中，从数据帧中删除这些重复项的有效方法是什么？

浏览 63提问于2016-11-08得票数 14

回答已采纳

4回答

从dataframe中对重复删除

、、

如果两列具有相同的值，则我希望从dataframe (df)中删除重复项，即使这些值是反向顺序的。我的意思是，假设您有以下数据框架：b <- c('A','B','B','C','A','A'

浏览 1提问于2014-08-13得票数 13

回答已采纳

2回答

Pandas通过为数据帧之间的每个重复行仅删除一行来合并两个数据帧

、、

我有两个数据帧，我正在合并它。在合并时，它应该删除重复项。但是对于帧1中的一个重复行，它应该只删除帧2中的一个重复行，即使有两个这样的行，如下面的df1： colA colB colC 1 1 2 1 2 3 1 1 2 结果： colA

浏览 32提问于2021-01-23得票数 1

回答已采纳

2回答

如何用JAVA实现Spark SQL中基于单列的重复行删除

、

我需要了解如何使用Java在Spark SQL中基于single从数据框中删除重复行。如何将此步骤转换为Java中的Spark SQL？

浏览 11提问于2017-07-25得票数 1

1回答

从数据帧中删除重复项

、

我有一个类似下面示例的数据帧"df“。我想使用address和business_id作为唯一的关键字，并根据address和business_id的组合过滤数据帧，以便它只具有唯一的记录。代码：示例数据： address business_id

浏览 3提问于2017-10-26得票数 0

4回答

如何在增量表中删除重复项？

、、

有一个从增量表中删除数据的函数：deltaTable.delete(col("date") < "2017-01-01") 但是，有没有办法以某种方式删除重复项呢？我不想将整个表作为数据帧读取，删除重复

浏览 2提问于2020-05-08得票数 3

2回答

查找重复行的索引

、、

在R中复制的函数执行重复的行搜索。如果我们想要删除重复项，我们只需要写df[!duplicated(df),]，然后重复项就会从数据帧中删除。但是如何找到重复数据的索引呢？如果duplicated在某一行上返回TRUE，这意味着这是数据帧中第二次出现这样的行，可以很容易地获得它的索引。如何获

浏览 3提问于2012-09-19得票数 78

回答已采纳

1回答

如何选择要删除的重复行？

、、、

我正在尝试将一个新数据集与一个旧数据集合并，每个表类型都有一个包含主键的SeqString，以及一个旧数据帧和一个具有相同模式的新数据帧。如果主键列值匹配，我想用新数据帧中的行替换旧数据帧中的行，如果它们不匹配，我想将行添加到。2")))我添加了一个由1和2组成的文字列，以跟踪哪些行是哪些行

浏览 17提问于2016-08-05得票数 0

回答已采纳

1回答

根据特定列值丢弃pandas中的半重复行

我有一个数据帧，除了一个列值之外，我有一个重复的行，如果id相同，我想删除值为"None“的行(不是所有行都是重复的) a b 21 74 3 4 我需要删除第一行，其中包含重复的(1)，并且b的值为None。

浏览 6提问于2020-12-11得票数 1

回答已采纳

2回答

Pandas不删除行

、

我正在尝试删除数据帧中的所有重复项。removeDuplicates = data.drop_duplicates() 第一行应该保留，所以第二次出现的县1也就是重复的应该被删除。但是，当我对此运行drop duplicates时，没有任何反应编辑:不要紧，它打印的是不同的数据帧。不应

浏览 0提问于2021-02-17得票数 0

2回答

如何从数据帧中删除重复项？

、

x 2008 NaN原始数据指示器是这样一个事实的结果，即这些观测值中的一些是为了获得每个IDnumber的所有三年而创建的，而另一些则存在于原始数据集中。我想要实现的是去掉重复的数据，并提前保留原始数据。请注意，原始数据指示器并不总是最后一个观察值。df=df.drop_duplicates(subset=[&

浏览 1提问于2016-02-16得票数 4

回答已采纳

1回答

如何以平衡的方式进行drop_duplicates？

、、

我想以一种平衡的方式从数据帧中删除重复项。目前，df.drop_duplicates()有一个参数keep，您可以在其中决定保留第一个还是最后一个出现的内容。也就是说，我有这个数据帧，有两列:文本和类别，看起来很平衡，但有重复项：再次应用drop_duplicates()并绘制，将如下所示：d

浏览 20提问于2021-03-08得票数 0

2回答

在Python中计算if (COUNTIF)和add到数据帧

、、、、

我有一个数据帧，它有很多重复项。我找到了许多解决方案来查找重复项的数量，但不是我想要的方式。如果新列的重复数小于或等于2，有没有办法计算新列中的重复数？数据帧如下所示： NAME1 Peter3 Jack5 Luke 但我希望它看起来像这样： NAME CountPeter 0 1 Peter

浏览 22提问于2019-02-13得票数 2

回答已采纳

1回答

从数据帧中排除特定信息

、、、

我有一个包含点位置信息的数据框。但是，一些位置是错误的，我必须基于空间多边形DataFrame选择“错误”的点。 whatever <- datu[!row.names = c("13328", "13329", "13330", "13331", "15206", "15743"), class = "data.frame") 现在，我想从我的通用数据帧中排除这些特定的行但是我现在不知道如何<

浏览 11提问于2020-10-16得票数 0

2回答

删除一行中的所有重复值，同时使用pandas保留该行(python)

、

以下是数据帧的sub_set。我想删除每一行中所有重复的项。例如，在第一行中，最后一个值dizziness应该被删除，因为在第1行的列WD2中已经存在dizziness。输出应如下所示：我知道如何删除列中的重复项，但我不知道如何连续删除重复项。提前谢谢。

浏览 9提问于2017-01-27得票数 0

回答已采纳

2回答

从R数据帧中删除准重复项

、、

然而，第2栏中的化合物通常是重复的(同一化合物的不同形式)。我想删除所有的副本，除了化合物的简单形式。这是数据帧： 366620Epinephrine, 3TMS derivative每种母体化合物<em

浏览 23提问于2016-08-05得票数 0

回答已采纳

1回答

Pandas中df.drop()行为的可能原因是什么？

、、

我有一个df2是其子集的Pandas数据帧df。当我尝试根据df2的索引值在df中删除行时，我得到了一些有趣的数学运算，如下所示。导致这种行为的原因可能是什么？

浏览 22提问于2021-04-19得票数 0

回答已采纳

1回答

如何在火花放电数据中放置副本而保持第一位？

、、

我试图从数据帧中删除重复项，但是不应该删除第一个条目。不包括第一次记录rest，所有其他重复应该存储在一个单独的数据帧中。例如，如果数据帧类似于：r,t,s,tb,m,c,da,b,c,de,f,g,he,f,g,h

浏览 0提问于2020-08-10得票数 2

回答已采纳

2回答

基于比较两列的R中删除重复值

、、

我有这样的数据：COL_2: Last_NameMichel JacksonMeganBakerSimon RichardMeg RyanMeg Meg 我想要清除两个列的重复名称的输出因此，我只需要在输出中记录Meg Ryan或Ryan Meg中的一个记录。

浏览 0提问于2018-09-05得票数 1

1回答

如何从表中删除反向重复项

、

我想删除那些，但不知道如何处理。例如:包含两列的表(KOL1 & KOL2)：A-CA-EB-EC-A在上面的例子中，C-A是我想要删除的记录，因为它是列表中已经存在的A-C的反向记录

浏览 0提问于2016-04-09得票数 0

点击加载更多