有条件地删除spark数据集中的重复行

文章/答案/技术大牛

发布

1回答

、

但对于我想要实现的目标，这是行不通的。以某种方式，我们必须根据列_2来检测重复项，然后必须删除_1中带有z条目的always the行，并将其_3值添加到保留的_3列。提前谢谢你。

浏览 1提问于2017-07-13得票数 0

2回答

删除在dataframe中两列重复的对象

、、、、

我有一个这样的数据框架： ? CSV文件中的数据集是here。此数据是从IMDb数据集中提取的。但是我有一个问题，我无法删除在同一行中重复的演员的名字，例如在第4行中，我想在姓名和演员列中删除'Marie Gruber‘。我尝试使用and来应用所有条件，但代码始终认为它是相同的

浏览 51提问于2021-09-20得票数 1

回答已采纳

1回答

有条件地删除重复的pandas python

、、、、

有没有办法有条件地在大约10列和400,000行的pandas数据框中删除重复项(特别是使用drop_duplicates )？也就是说，我希望所有有2列的行都满足一个条件:如果date (column)和store (column) #的组合是唯一的，则保留行，否则删除。

浏览 1提问于2015-05-03得票数 8

1回答

其中几行是关于相同的房地产，所以它充满了不完全相同的重复项。它看起来是这样的： ID URL CRAWL_SOURCE PROPERTY_TYPE NEW_BUILD DESCRIPTION IMAGES SURFACE LAND_SURFACE我使用python中的pandas对数据集进行了分组，在DESCRIPTION列上创建了重复项的列表。但是，如列表末尾所示，它也在NaN上分组。如何过滤掉它们？Levallois-Pe

浏览 14提问于2019-09-16得票数 0

2回答

根据Java列上的自定义函数在Spark中删除重复行

、、、

我试图在中删除数据集中的副本，在Java中使用。我的数据集有三列。假设列的名称是name, timestamp, and score。--> 10John --> 1595239200000 --> 10 注意，在上面的数据集中，第一行和第四行是相同的我想要的</e

浏览 15提问于2020-07-20得票数 0

回答已采纳

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.1

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

筛选火花数据集

、、

在火花会议上 .builder() .config("spark.some.config.option", "some-value")从数据集中val coords=

浏览 4提问于2022-07-21得票数 2

回答已采纳

1回答

Server查询以隐藏重复行列数据。不想删除重复行

、、、

Server查询以隐藏重复行列数据。不想删除重复行。有条件地将数据显示为空白。Ledger],from 我得到了这个输出：但是，我需要这种格式的输出：在第二个打印屏幕上，我不显示Vch、Date、Party Name、Sales Ledger、Amt和Total的

浏览 5提问于2017-08-01得票数 1

回答已采纳

3回答

R，有条件地删除重复行

、、

我在R中有一个数据帧，包含列ID.A、ID.B和DISTANCE，其中distance表示ID.A和ID.B之间的距离。对于ID.A的每个值(1->n)，可以有多个ID.B和distance值(即，在ID.A中可能有多个重复的行，例如，值为4的所有行在该行中都有不同的ID.B和distance )。我希望能够删除ID.A重复的行，但条件是距离值，这样我就可以为每个ID.A记录

浏览 0提问于2012-05-31得票数 9

2回答

如何有条件地替换Apache Spark数据集中的值？

、、

浏览 6提问于2018-02-19得票数 0

3回答

有条件地移除重复

、、、

我有一个数据集，需要根据另一列中的值有条件地删除重复的行。size<-c(0, 1, 1, 2, 3, 0, 0, 1, 0) da

浏览 3提问于2017-09-08得票数 1

回答已采纳

2回答

从数据帧中有条件地删除重复行

、、、

我在R中有一个数据框架，由两列组成：“基因”和“表达”。对于某些基因，它有重复的行，但是这些重复的条目有不同的表达值。我想压缩重复的行，这样每一个基因只有一行，并且这一行具有最大的“绝对”表达式值。例如，见下文：2 MYC 64 TP53 -3

浏览 1提问于2015-03-13得票数 1

回答已采纳

1回答

在pySpark中删除重复项的最佳方法

、、

我正在尝试通过对几个列使用dropDuplicates()来删除spark数据帧中的重复项。但是由于大量的混洗和数据倾斜，作业被挂起了。为此，我使用了5个内核和30 do的内存。我正在执行dropDuplicates()的数据大约是1,200万行。考虑到数据倾斜和混洗，请给我建议在spark中删除重复项的最优

浏览 0提问于2018-09-25得票数 0

1回答

Spark删除重复项并选择具有最大值的行

、、

我正在尝试删除基于column1的重复项，并选择column2中具有最大值的行。column2的值为"year"(2019,2020等)，类型为"String“。我的解决方案是，将第2列转换为整数，并选择最大值。 Dataset<Row> ds ; //The dataset with column1,column2(year), column3 etc.newDs = newDs.groupBy(&quo

浏览 0提问于2020-11-18得票数 0

1回答

Java Spark删除重复项/空值并保留顺序

、

我有下面的Java Spark数据集/dataframe。 Col_1 Col_2 Col_3 ...A 1 1B 2 2C 1 NULL 这个数据集中有将近25列，我必须删除那些在Col_1上重复的记录。如果第二个记录为NULL，则必须删除NULL (如COl_1 = A)，如果有多个有效值(如Col_1 =B)，则每次只应保留

浏览 17提问于2020-11-25得票数 0

回答已采纳

2回答

Scala:如何合并两个数据帧？

、、

Name ID2 Marks第二个Df2是：1 3 989我需要的输出是

浏览 0提问于2018-03-01得票数 5

回答已采纳

2回答

删除dataframe python的重复行

我需要从数据集中删除重复的行。基本上，我应该表演我需要删除重复项，并将这些重复行保存在单独的dataframe中。

浏览 53提问于2017-07-07得票数 0

回答已采纳

1回答

从Spark中的元组数据集中删除重复项

、、、

我在删除元组数据集Dataset[(LeftDs, RightDs)]中的重复行时遇到了问题尝试连接两个数据集，如下所示： val comparableDs = leftDs.joinWith(rightDs,) 我想删除两个字段的重复项： val resultDsname"

浏览 13提问于2019-01-17得票数 1

回答已采纳

1回答

按组有条件地删除重复行

、、

我有一个调查，我的数据看起来像这样： dt<-structure(list(ID = c("183577", "183577", "183907", "183907", "184188", "184188然而，对于这些问题中的一些，我有另一行包含个人的答案，其中该行采用非缺失值(例如，部分，是，否)。我想删除所有重复的行</e

浏览 11提问于2021-10-25得票数 0

回答已采纳

2回答

有条件地删除重复行-啄顺序

，否则C必须从B_y为空的行中选择(空白是通配符)。我应该为每一个A找到一个独特的行(在哪里可以找到匹配的)。我的方法:我尝试了以下几点。False]) | df.apply(lambda x: x.B_x in x.B_y, axis=0) | df.apply(lambda x: x.B_y='', axis=0)] 这将使具有B_y值的行与空白的行(通配符)匹配值'GBP、美元、E

浏览 1提问于2020-07-03得票数 2

回答已采纳

点击加载更多