Pandas:查找具有重复项的行集

文章/答案/技术大牛

发布

2回答

、

我有一个存储在pandas数据框中的传感器数据列表，如下所示：12345 2019-01-有时传感器会出现故障，您会看到两行具有相同的值，除了显示“EventOn”和“EventOff”对的“sensorStatus”。我希望检测每一组匹配的行，这些行的值都是相同的，但sensorStat

浏览 33提问于2019-11-06得票数 0

2回答

从dataframe中选择几列具有相同值而另一列具有不同值的行

、、

我有一个包含四个特征列和一个标签列的pandas数据帧。数据集有一些问题。有些行具有相同的特征值，但标记方式不同。我知道如何查找多个列的重复项 df[df.duplicated(keep=False)] 但是，如何找到标签冲突的重复特征？

浏览 92提问于2020-04-10得票数 2

回答已采纳

1回答

查找重复项并删除整行(使用Do While和If循环)

、、

我有需要删除重复项的大型数据集。数据有一个包含ID号的列-我想在此列中循环查找重复的ID。如果存在重复项，我希望代码删除重复项。我使用的数据集总是具有相同的列-但行数会发生变化，因为我将使用： Do While Cells(b,4).Value <> "“ 然后，在这个循环中，我需要一个I

浏览 16提问于2020-08-17得票数 0

6回答

如何使用pandas查找重复名称？

、、

我有一个包含名为name的列的pandas.DataFrame，其中包含字符串。我想要获取在该列中多次出现的名称的列表。我该怎么做？

浏览 5提问于2013-03-06得票数 21

回答已采纳

2回答

使用pandas在大于内存的数据集中获取重复行

、、、

非常适合在数据帧内的指定列中查找重复的行。但是，我的数据集大于内存容量(甚至大于在合理的预算限制内扩展后所能容纳的容量)。这对于我必须执行的大多数分析都很好，因为我可以循环我的数据集(csv和dbf文件)，将每个文件单独加载到内存中，并按顺序执行所有操作。然而，对于重复分析，这显然不适合在整个数据集中查找重复项</em

浏览 5提问于2017-02-16得票数 0

2回答

如何在pandas数据帧中查找包含除NaN之外的所有唯一值的列名？

、

我想要查找包含pandas数据框中除NaN以外的所有非重复项的列。x y zb 2 2 Bd 4 NaN NaN列"x“和"z”具有除NaN之外的非重复值，因此我希望将它们挑选出来并创建一个新的数据框。

浏览 16提问于2020-05-14得票数 1

回答已采纳

1回答

使用Pandas如何去复制以块形式读取的文件？

、、

我有一个大的固定宽度的文件被读成块10000行熊猫。除了从数据中删除重复项外，这对于所有东西都很有用，因为复制项显然可以在不同的块中。由于文件太大，无法全部装入内存，所以文件正在以块形式读取。我第一次尝试去复制文件的目的是只引入去重复文件所需的两列，并列出不读取的行列表。只阅读这两列(在大约500列中)很容易就可以在内存中使用，并且我能够使用id列查找重复

浏览 1提问于2015-06-04得票数 8

回答已采纳

1回答

如何比较单个表中的两行

我有带有像firstname, middlename, lastname, department, effectivedate, canceldate和processdate这样列的employee的暂存表为了查找重复项，我必须将每一行与其他行进行比较，如果两行匹配，则必须选择一个具有更大进程日期的行。我使用带有Dense_rank函数的CTE来查找重复项

浏览 2提问于2011-09-16得票数 1

1回答

Pandas dataframe:保留具有重复项的行

、、、

这个问题比Remove duplicate rows in pandas dataframe based on condition稍微复杂一点我现在有两个列'valu1'，‘valu2’，而不是一个3 122015-10-31 5 13 在上面的数据框中，我希望通过在valu1列中保留具有较高值的行，在value2列中保留较低值的行，来删除重复

浏览 95提问于2019-04-20得票数 3

回答已采纳

2回答

在一列中查找重复项，而在另一列中查找非杜撰项。

、

如何获取数据集并输出结果，在一列中查找重复信息，在另一列中查找非重复项，这使我感到非常困难。如果列0和2是完全重复的，我不关心数据集，只有当列0的条目在第2列中有多个值的情况下，我才会关心。如果是这样的话，我想要所有与列0匹配的行。我首先使用concat将数据集缩小到具有重复项的</

浏览 0提问于2018-11-16得票数 1

回答已采纳

1回答

是否有一个版本的str_detect可以查找重复项？

、

我有一个数据集，其中包含多个包含标识符的列，并且我需要根据这些标识符来标识重复项。我创建了一个新列，将所有标识符列粘贴在一起，但我不确定如何实际检测重复项。当前数据集如下所示： id <- (1:10) record <- c("A | B", "A", "--C--", "B", "CD", "D", "ABCD",

浏览 9提问于2020-10-10得票数 1

1回答

在具有不同行数的数据集上应用transform_lookup

、、

我目前正在学习Altair的地图功能，在查看其中一个示例(https://altair-viz.github.io/gallery/airport_connections.html)时，我注意到数据集(airports.csv和flights Airport.csv)具有不同的行数。

浏览 9提问于2020-10-11得票数 2

回答已采纳

2回答

删除R中具有重复值的行的所有副本

我有一个数据集如下所示：A 12 SC 12 SE 11 S我想删除具有重复位置和类型的行。我尝试使用duplicated函数查找重复行，但不知道如何删除所有具有重复值的行。

浏览 5提问于2016-02-19得票数 2

回答已采纳

1回答

在一张表中匹配/重新排列2组IDS

、、、

这4个字段的组合在文件中是唯一的。问题是，我正在尝试创建一个广泛的列表，其中包含与4个in中的任何一个关联的所有in，并且在其他行中存在具有额外in或空白的匹配项。我想创建一个在这些ID字段中查找匹配项的数据集，并为每个附加的唯一值添加一列，以创建关联ID的完整列表。合并应删除任何ID的重复<

浏览 1提问于2018-03-23得票数 0

1回答

如何将set函数应用于特定列的所有行，该列的条目是具有重复值的列表？

、

在我的pandas数据框中，我有一个列，该列的每一行都是一个具有重复值的列表。例如，一个有3行的数据框：df = pd.DataFrame({'Column_1': [[1,2,3,2],[1,1,2],[1,2,3]]})我想要删除重复项。我的预期输出类似于[[1,2,3],[1,2],[1,2,3]]。如何应用set函数来删除每个列表中的<

浏览 13提问于2020-08-03得票数 0

回答已采纳

2回答

如果两个文件具有相同的列值，则合并这些文件中的行

、、

目前，我正在亚马逊的网站上搜寻一些数据。我遇到的问题是，我不能真正从同一个页面获得一个产品的所有数据。我最终得到的是两个文件，它们具有相同的列标题，但列本身的数据不同。我以前几乎从来没有用过熊猫，除了一些小东西，所以我在这个领域的知识并不是很多。如果file2中的代码与file1中的代码相同，那么将file2中的数据粘贴到file1中(或者直接创建一个新文件)的最佳方法是什么？我

浏览 10提问于2019-02-01得票数 1

回答已采纳

1回答

查找具有频繁项集的相应行

、、

我的数据集是一个邻接矩阵，可与客户购买信息相比较。=p)现在我对频繁的项目集很感兴趣，所以我用了一个先验的词：frequent_itemsets =apriori(df, min_support=0.1, use_colnames=True)现在我们看到项集(D，B)出现在75%的数据集中。但是我实际上对这个项目<

浏览 4提问于2020-07-03得票数 1

回答已采纳

3回答

Pandas在一列中搜索在另一列中具有不同值的重复行

、

我有一个Pandas dataframe df，我想要查找其列A的值相同，但列B的值不同的所有行，例如： ---|---|---我知道可以使用pd.concat(g for _, g in df.groupby('A') if len(g) > 1)来获取具有重复A值的行，但是如何添加第二个约束呢？

浏览 16提问于2017-01-19得票数 9

1回答

使用索引+行匹配从数据中删除重复项

、

我有两个pandas DataFrames，我想将它们连接在一起，这样就可以去掉重复的外部联接。我的问题是，.drop_duplicates()在查找重复项时忽略索引。如果索引是不同的，那么它就不应该是重复的。如果行索引和列是重复的，如何删除重复项？我唯一能想到的就是使用df.to_dict()，然后创建一个新

浏览 3提问于2012-05-27得票数 0

回答已采纳

1回答

Pandas Dataframe丢弃记录及其副本

我希望删除基于列的pandas Dataframe中具有重复项及其重复项的记录

浏览 18提问于2019-11-14得票数 0

回答已采纳

点击加载更多