如何从连接相同的pyspark dataframe中删除“重复”行？

文章/答案/技术大牛

发布

2回答

、、、、

我需要显示一个由三列组成的数据帧。其中两个显示了在一部普通电影中工作过的人的名字(由第三个代码中的代码表示)name_data_df3 = movie_join_oscar_join_name.filter('NazioneJoan Crawford| tt0022958| Lionel Barrymore|如何删除<

浏览 7提问于2018-02-18得票数 3

回答已采纳

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame有一个最大长度为52个唯一ints<

浏览 9提问于2017-01-12得票数 1

回答已采纳

0回答

删除SparkR DataFrame中的重复观测

、、、

我有一个带有重复观察的SparkR DataFrame。我找不到一种简单的方法来删除重复项，而且似乎SparkR中没有PySpark dropDuplicates()功能。例如，如果我有以下DataFrame，如何根据fullname被复制这一事实删除第2行和第4行？

浏览 0提问于2017-06-20得票数 1

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas

浏览 7提问于2021-03-15得票数 0

回答已采纳

2回答

两个数据帧的Pyspark连接导致重复值错误

、

在连接两个数据帧时，我在pyspark中遇到了问题。第一个dataframe是一个单列的dataframe "zipcd"，第二个是四个列的dataframe。每当我试图连接两个dataframe时，问题就会出现，因为Pyspark在我的新dataframe中返回我，关于zipcd的一列，它的</em

浏览 30提问于2021-07-01得票数 1

2回答

从数据帧中删除相同的行-Pandas

、、

我试图删除两个数据帧之间匹配的相同行。无论如何，我尝试相同数据帧中相同行的方法也会被删除。但是我想从相同的数据帧中保留相同的行，并删除那些只与其他数据帧匹配的行。Dataframe 1: ID PID PDate Amou

浏览 0提问于2021-06-08得票数 0

回答已采纳

1回答

在Dataframe中，如何根据条件从行中删除列？

、

当该行上的列值为零时，我想从行中删除该列。我不想从Dataframe中删除该列。仅当列值为零时，我才从该特定行中删除该列。我用的是Pyspark。

浏览 19提问于2020-04-09得票数 0

2回答

pyspark:删除所有行中具有相同值的列

相关问题：然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？

浏览 1提问于2018-12-17得票数 4

2回答

从增量表/pyspark数据帧中删除多个行，给出一个ID列表

、、、

我需要找到一种方法，从一个增量表/吡火花数据帧中删除多个行，给出标识行的ID列表。据我所知，没有一种方法可以使用一个列表来删除它们，但一次只能删除一个。任何建议/帮助都将不胜感激。

浏览 8提问于2022-05-13得票数 2

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，

浏览 2提问于2020-04-20得票数 0

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表

浏览 3提问于2021-12-11得票数 0

2回答

加入来自相同来源的两个DataFrames

、、、

我使用的是pyspark (Apache Spark)的DataFrame接口，遇到了以下问题：我从磁盘加载一个包含n行的DataFrame： df = sql_context.parquetFil

浏览 1提问于2015-04-21得票数 6

2回答

如何根据大小更改列值

、、、

我在PySpark设置中有一个dataframe。我想更改一个列，比如它叫做A，它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是，如果一行中只有一个字符，则希望将0连接到末尾。“修改”列的名称必须仍然是A。这是用于使用PySpark3的木星笔记本。这就是我迄今尝试过的： df = df.withColumn("A", when(

浏览 2提问于2019-06-17得票数 1

回答已采纳

3回答

如何将一个dataframe中引用的ids更改为从第二个dataframe中删除副本后将保留的ids？

、、

我正在处理两个数据文件：在magazines dataframe中有重复的标题。我不确定如何将第一个dataframe中引用的I更改为删除副本后将保留的</e

浏览 23提问于2022-03-19得票数 0

回答已采纳

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

我用火花来处理我的数据，就像这样： url='jdbc:第46行，在process() "/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parquet.py"，第36行

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

根据特定列进行PySpark重新分区

、、、

我正在研究如何对数据集进行重新分区(在PySpark中)，以便将指定列中具有相同ID的所有行移动到相同的分区。实际上，我必须在每个分区中运行一个程序，该程序为具有相同ID的所有行计算单个值。我有一个从HIVE QL查询构建的dataframe (df) (假设包含10000个不同的ID)。我试

浏览 4提问于2018-05-22得票数 0

1回答

如何根据上一行的值来修改中的值？

、、、

|golf |indoor |60129542144|我需要识别重复的数量-类别-活动组合，将重复对中的行取为参与者数量较少的行，并将该行的成本设置为0。我最初的策略是添加一个索引列，然后使用pyspark窗口功能来创建一个新的datafr

浏览 1提问于2022-10-31得票数 0

1回答

如何在使用drop_duplicates (Pandas DataFrame)时获得掉行？

、、、

我使用pandas.DataFrame.drop_duplicates()删除所有列值相同的行的重复项，但是对于数据质量分析，我需要生成一个带有删除的重复行的DataFrame。如何识别要删除的行？我想到了比较原始的DF和没有重复的新<em

浏览 10提问于2020-07-06得票数 1

回答已采纳

1回答

从序列中删除连续重复项

、、

我正在尝试运行一些代码，以便从dataframe中的序列中删除重复项。我有大约3000行不同的序列。我想要做的一个例子是把A，B，B，A，D，D，E转换成A，B，A，D，E。我仍然需要保持相同的序列，只需删除连续的重复。我已经尝试过zip_longest，以及迭代工具groupby函数。我遇到的问题是，有那么

浏览 2提问于2022-02-09得票数 0

2回答

使用PySpark移除至少具有1NA的任何行

、、

我有一个电火花数据，我想删除任何一行至少有一个NA。如何对dataframe的所有列执行相同的操作？可复制示例from pyspark.sql import SparkSessionfrom pyspark.sql.functions") \

浏览 14提问于2022-10-05得票数 1

回答已采纳

点击加载更多