Pyspark删除数据帧中的重复列

文章/答案/技术大牛

发布

1回答

、

我发现很多解决方案都与join的情况有关。我的问题是，如果数据帧本身中存在重复项，如何检测和删除它们？下面的例子只是展示了我如何创建一个包含重复列的数据框。| 2| B| X2| B| B|+---+----+----+-----+-----+ 假设我刚刚获得了df1，我如何删除重复的列来获得

浏览 7提问于2018-01-13得票数 1

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据</e

浏览 0提问于2018-10-03得票数 6

2回答

Drop函数在连接数据帧的相同列后不能正常工作

、、、

我在连接两个数据帧A、B时也面临着同样的问题。对于ex： c = df_a.join(df_b, [df_a.col1 == df_b.col1], how="left").drop(df_b.col1) 当我像上面那样尝试删除重复列时，该查询不会删除df_b的col1，相反，当我尝试删除df_a的col1时，它能够删除df_a的col1。注意:我在我的项目中尝

浏览 14提问于2019-10-08得票数 0

回答已采纳

1回答

使用pyspark中的列索引删除同名的列

、、、

这是我的数据帧，我正在尝试使用index删除同名的重复列： df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+

浏览 30提问于2019-12-19得票数 4

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。 AnalysisException:在数据模式中找到重复列：amendationcommentkey、amendationreasonkey、amendatio

浏览 3提问于2021-11-25得票数 0

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧然后我试着从列表中删除</

浏览 0提问于2018-10-31得票数 4

回答已采纳

2回答

如何从以2K开头的pyspark数据帧中删除记录

、、

我使用的是pyspark 3.0.1。我想从我的pyspark数据帧df的列group中删除记录以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name A

浏览 1提问于2021-03-04得票数 0

1回答

如何将重复的函数应用于数据帧的列

具体来说，我想知道MARGIN参数是否允许我检查使用duplicated复制的列。这是可能的代码： [1] 59 130 [1] FALSE FALSE FALSE FALSE FALSE FALSEFALSE FALSE FALSE FALSE将MARGIN从1更改为2没有任何影响，每次我得到59行的结果我正在绑定以找到删除重

浏览 1提问于2017-02-16得票数 1

回答已采纳

1回答

在Databricks中使用Pyspark更新数据库表

、、、

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数

浏览 2提问于2020-04-20得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

2回答

如何将唯一的重复列折叠为R中的唯一列？

、

溶液问题我已经尝试了使用重复()、汇总()、聚合()、lapply()、combin

浏览 1提问于2019-04-13得票数 0

回答已采纳

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

、、、

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

、、、、

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用py

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

从数组pyspark中删除数组列

、

假设我在pyspark数据帧中有以下数据结构： arr1:array string1:string element:string string2: string 如何从我的数据帧中删除arr2？

浏览 8提问于2019-10-15得票数 0

3回答

取消持久化(py)spark中的所有数据帧

、、、、

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的

浏览 7提问于2019-11-15得票数 1

2回答

删除Pandas中具有重复值的列

、、、

我有一个包含以下示例的数据库：在用Python加载数据时生成数据帧，如下代码所示import pandas as pd输出：是否有任何方法可以避免读取Pandas中的重复列，

浏览 1提问于2018-04-10得票数 3

回答已采纳

1回答

如何从F.col对象中恢复列名？

、

简单的问题:假设我们那么如何从pyspark.sql.column.Column对象F.col('a')中恢复列名字符串'a‘。

浏览 2提问于2020-05-10得票数 0

回答已采纳

1回答

检查列是否全部为空

、、

我有一个列名和一个数据帧。我想检查该列中的所有值是否都为空，如果为空，则从数据帧中删除该列。我所做的是检查具有非空值的列的计数，如果count等于0，则删除该列，但在pyspark中这似乎是一个开销很大的操作

浏览 0提问于2019-08-09得票数 0

点击加载更多