删除基于其他列的重复数据帧

文章/答案/技术大牛

发布

1回答

、

1A B procedureaa pass 1b pass 1 基本上，对于给定的过程，如果它再次运行，并且这一次是一次通过，我希望保留通过并删除失败。我不确定如何根据多个条件删除行

浏览 11提问于2020-03-10得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用<em

浏览 4提问于2018-04-10得票数 5

回答已采纳

2回答

基于比较两列的R中删除重复值

、、

我有这样的数据：COL_2: Last_NameMichel JacksonMeganBakerSimon RichardMeg RyanMeg Meg 我想要清除两个列的重复名称的输出，例如Meg Ryan和Ryan Meg是相同的。因此，我

浏览 0提问于2018-09-05得票数 1

1回答

如何在保留最新版本的同时从火花数据框架中删除重复项？

、

我想删除基于数据帧的两列的重复，保留最新的(我有时间戳列)。最好的办法是什么？请注意，副本可能分布在分区之间。我是否可以删除保留上一张记录的副本而不进行洗牌？我在处理1 TB的数据。我想通过这两列对数据框架进行分区，这样所有重复的记录都将被“一致散列

浏览 0提问于2019-04-12得票数 7

回答已采纳

1回答

如何根据特定列中的值删除Pandas DataFrame中的重复行？

、、

我有两个数据帧具有重复项，但我只需要删除具有重复VIN号的行，而不查看其他单元格。LLW63494 2020 BMW X5 最后两行看起来像熊猫的不同行，但我需要合并两个数据框并删除仅基于这些VIN编号的行，并忽略“未找到”和“需要详细信息

浏览 1提问于2020-01-17得票数 0

1回答

根据列的子集删除重复项，保留列E中具有最高值的行&如果E中的值等于列B中具有最高值的行

、、、

假设我有以下数据帧：我想删除基于A、B和C列的重复项，保留E列最高的行。如果E列中的值相同，则保留D列最高的行。因此，上面的数据帧将变成：我看到了答案的开头：<code&

浏览 7提问于2021-06-11得票数 1

回答已采纳

3回答

检查Pyspark Dataframe中的重复项

、、、

有没有一种简单有效的方法来检查python dataframe中的重复项(而不是删除它们)？蒂娅。

浏览 7提问于2018-05-02得票数 9

回答已采纳

2回答

按组更改基于其他列的列值

、、

这样每个组的值都是相同的(基于Con_Num分组)。我希望在该列中的值是Is_Prim==Yes所在的行。我见过transform函数，但在找出如何根据另一列进行映射时并不成功。基于示例数据帧的输出将如下所示： Con_Num Con_Type Is_Prim1 1 A YesC No 7

浏览 11提问于2021-09-15得票数 2

回答已采纳

2回答

具有相同变量数的数据帧列表，删除一个变量内的重复项，并在其他数据帧中执行相同的操作

、、、、

我有以下数据帧列表，每个数据帧都有3个变量(a、b和c)在我的数据帧中，我在"a“中复制了字符串，我希望删除具有重复值的行。我正在使用的当前代码：这段代码的问题是，其他

浏览 1提问于2021-05-13得票数 0

回答已采纳

1回答

在组内计数不同的/非唯一的

、、

我想在每一组中计算不同的元组数： 'b':by='a', columns=['b', 'c']) assert counts == pd.Series([4, 2

浏览 0提问于2016-09-05得票数 2

回答已采纳

1回答

仅取R中数据框所有列的重复in的最大值

、、、

我有24525行22列的数据帧。最后一列是ID列，其他列是数字列。唯一ID数为18414，部分ID重复次数超过2次。我需要删除重复的ID，并且只保留另一个数据框中每个ID和每列的最大值。我尝试在for循环中对每一列进行排序，并删除重复项以保留最大值，但它不

浏览 0提问于2021-01-13得票数 0

2回答

使用pandas和Python删除重复项

、、

我想删除基于我的第一列的重复项，让我们假设这是'id‘。我需要删除的值是数据最不完整的记录。我想根据我的列id删除重复的内容。但是，我希望删除的重复项取决于其他列中的

浏览 9提问于2017-08-13得票数 3

3回答

Pandas处理大型CSV数据

、、

我正在使用pandas处理至少8 8GB大小的大型数据集。在我的理解中，分块整个文件将创建许多不同的数据帧。因此，使用我现有的例程，这只删除特定数据帧上的重复值，而不是整个文件上的重复值。我需要删除基于“唯一键”列的整个数据

浏览 33提问于2020-03-11得票数 3

回答已采纳

1回答

根据应用于2个非数字列的a+b逻辑删除重复项

这可能是不知道要搜索的正确关键字，但我正在寻找一种方法，基于两个非数字列之间的顺序颠倒来删除重复项。，动物的顺序正好在前两列之间颠倒。删除哪一个并不重要，但我想删除其中一个副本...以及在我更大的数据帧中符合此逻辑的所有其他副本。我习惯于根据这些问题中的逻辑进行子分类：和其他提出搜索“

浏览 0提问于2017-08-03得票数 1

3回答

join后如何重命名重复的列？

、、

我想对3个数据帧使用join，但是有一些列我们不需要，或者与其他数据帧有一些重复的名称，所以我想删除一些列，如下所示： .join(cc_df, 'id', 'left') .withColumnRenamed(bb_df.status, &

浏览 0提问于2018-05-11得票数 9

回答已采纳

3回答

对一个值在R中解压数据，选择其他列的任何值

‘，这样我就得到了tyler [1 or 2, I dont care]steph 3 我有一个唯一的标识符列，我想要不同的值，还有另外18个列，我需要一个，任意一个值。

浏览 2提问于2014-02-07得票数 4

回答已采纳

1回答

使用Pandas将重复项提取到新的数据帧中

、、、

我有一个很大的数据框，有很多列。其中一列应该是唯一的ID，另一列是年份。遗憾的是，唯一ID列中存在重复项。我知道如何生成所有重复项的列表，但实际上我想要做的是将它们提取出来，以便只保留第一个条目(按年)。例如，dataframe目前看起来像这样(有一堆其他列)：----------123 131

浏览 36提问于2018-08-28得票数 1

回答已采纳

2回答

如何创建部分重复行的新数据(基于45列中的4列的重复数据)

、、

我有一个很大的数据集，其中大约10%是“双重编码”。一名研究助理重新收集了部分数据的数据，这样我们就可以确保数据的准确性。大多数情况下，我想检查拼写错误和其他不符之处。我只想将双编码行提取到一个新的数据帧中，这样我就可以读取它们以确保它们匹配，然后删除重复的行。我可以根据4个ID列(链接、BillType、BillNumber

浏览 8提问于2022-10-09得票数 0

1回答

从作为列表格式的数据帧列中移除杜普斯

、、

我在一列一列的数据帧中有很多重复的值。下面是一些示例，我查看了其他堆栈溢出问题，但我只能为列表找到答案，而不是针对数据帧问题。当我在列表中传递值时，我能够删除重复的值，但是，当我像数据帧一样传递它时，它会产生错误：TypeError: unhashable type: 'list' 我在这里做错什么了？err

浏览 0提问于2018-08-21得票数 1

回答已采纳

1回答

如何合并两个有重复列的数据框来连接每个字符串值？

、、、

具有两个具有相同列名(名称、部门)的数据框。我正在尝试合并两个数据框，如果有任何重复的名称，并将dept值连接到dept列。我希望第一个数据帧上的行数保持不变，但如果有重复的数据帧，则只将第二个数据帧的值添加到第一个数据帧中。到目前为止，我已经尝试使用pandas .merg

浏览 0提问于2019-10-30得票数 0

点击加载更多