Pyspark dataframe未删除所有重复项

文章/答案/技术大牛

发布

1回答

、、

-------------+---------+-------+-------------+-----------------+ 正如您所看到的，对于包含"data8和x“的行，该函数按预期工作，但只删除了列类型-输入的主键类型错误-手动传入列名以进行仔细检查我能想到的唯一另一件事是数据正在被分区，据我所知，.dropDuplicates()只在每个分区中保存第一次出现的数据(请参阅此处：spark dataframe

浏览 17提问于2019-04-19得票数 0

回答已采纳

1回答

PySpark DataFrame无法删除重复项

、、、、

你好，我已经创建了一个星星之火数据，我正在尝试删除重复的：我得到以下错误： at java.lang.Thread.run(Thread.java:745)我用了一个这样的笔记本 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DR

浏览 9提问于2016-05-07得票数 13

回答已采纳

0回答

删除SparkR DataFrame中的重复观测

、、、

我有一个带有重复观察的SparkR DataFrame。我找不到一种简单的方法来删除重复项，而且似乎SparkR中没有PySpark dropDuplicates()功能。例如，如果我有以下DataFrame，如何根据fullname被复制这一事实删除第2行和第4行？

浏览 0提问于2017-06-20得票数 1

回答已采纳

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。我想要生成一个列，它遍历ints列表并为每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除，在本例中为[1,2,3]。因此，对于第一次迭代：[][2,3]对于第二次迭代：删除元

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧然后我试着从列表中删除未使用的。如何在pyspark上删除数据帧以获得一些内存？或者你还

浏览 0提问于2018-10-31得票数 4

回答已采纳

2回答

删除与某些行相关的所有重复行。

、、、

下面是一个示例DataFrame：| id|value|type||283924| 1.5| 0||892383| 2.0| 0|+------+-----+----+ 行1和2是<e

浏览 0提问于2018-07-25得票数 1

回答已采纳

3回答

从PySpark中的数据中删除重复项

、、、

line.split(",")[1], line.split(",")[2], line.split(",")[3])).collect() #dropping duplicate

浏览 2提问于2015-06-26得票数 25

回答已采纳

2回答

不能从.csv栏中移除大熊猫的副本

、、

如果任何行包含单列(‘Addresses’)中的重复值，我希望使用熊猫函数drop_duplicates()删除它们。每当我尝试使用drop_duplicates()并将我的数据帧打印或保存到一个新的.csv时，重复的行/值仍然存在。81212th St619 81212th St 如您所见，仍然有几行包含地址中的重复项

浏览 4提问于2019-06-11得票数 0

回答已采纳

1回答

窗口函数在列表上的partitionBy

、、

我在scala中有一个dataframe tableDS，我可以使用下面的命令删除主键上的重复项-from pyspark.sql.window import Window window = Window.partitionBy

浏览 1提问于2018-10-06得票数 1

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。连续字符删除函数逐字读取字符串，检查单词是否在例外列表中，如果不在例外列表中，则逐

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

pyspark dataframe:删除数组列中的重复项

、、、

我想删除pyspark dataframe列中的一些重复的单词。and this book be downloaded on line]|我需要删除

浏览 0提问于2020-09-15得票数 2

2回答

如何从PySpark数据帧中删除重复项并将剩余列值更改为null

、、、

我是新来Pyspark的。我有一个Pyspark dataframe，我想根据id和时间戳列删除重复项。然后，我想将重复id的读取值替换为null。我不想用熊猫。

浏览 13提问于2020-01-08得票数 2

回答已采纳

1回答

将重复记录移动到pyspark中的其他临时表

、、、

我用的是Pyspark 我的输入数据如下所示。COL1|COL2|EMC |120989||BMW|130157||TYCO|130003| 我已经创建了DataFrame并查询重复项，如下所示。from pyspark.sql import Rowspark = SparkSession \ .builders

浏览 8提问于2019-09-24得票数 0

回答已采纳

1回答

从PySpark数组列中删除重复项

、、、

我有一个PySpark Dataframe，它包含一个ArrayType(StringType())列。此列包含需要删除的数组中的重复字符串。arraycol_without_dupes", F.remove_dupes_from_array("arraycol")) 我的直觉是，这有一个简单的解决方案，但是在浏览堆栈溢出15分钟之后，我没有发现比爆炸列、删除完整数据帧上的重复项

浏览 1提问于2019-01-14得票数 2

回答已采纳

1回答

使用pyspark dataframe从列名中删除特殊字符

、、

我正在尝试使用pyspark读取csv文件，大多数列名都有特殊字符。我想要使用pyspark dataframe.Is删除所有列名中的特殊字符，有什么特定的函数可以同时删除所有列名的特殊字符吗？

浏览 1提问于2020-08-05得票数 2

回答已采纳

3回答

检查Pyspark Dataframe中的重复项

、、、

有没有一种简单有效的方法来检查python dataframe中的重复项(而不是删除它们)？蒂娅。

浏览 7提问于2018-05-02得票数 9

回答已采纳

2回答

Pyspark -从dataframe中删除重复项，保留最后的外观

、、

我正在尝试删除spark数据帧，只留下最新的外观。重复存在于三个变量中：ID我在Pandas中取得了成功，如下所示： df_dedupe = df.drop_duplicates(subset=['NAME','ID','DOB'

浏览 3提问于2018-11-14得票数 1

1回答

如何在使用drop_duplicates (Pandas DataFrame)时获得掉行？

、、、

我使用pandas.DataFrame.drop_duplicates()删除所有列值相同的行的重复项，但是对于数据质量分析，我需要生成一个带有删除的重复行的DataFrame。如何识别要删除的行？我想到了比较原始的DF和没有重复的新的DF，并识别缺少的唯一索引，但是有更好的方法来做到这一点吗？示例 data =[[1,'A'],[2,'B&#x

浏览 10提问于2020-07-06得票数 1

回答已采纳

7回答