Pyspark删除多列连接后的列

文章/答案/技术大牛

发布

1回答

、、

我尝试在pyspark中对两列进行左连接，其中只有一列的名称是相同的：如何删除连接的数据帧df2.date和df2.accountnr的两列 dfAll = ( .join(df2, how = 'left&

浏览 30提问于2019-02-10得票数 0

1回答

PySpark在连接后删除列

b.GroupByFld] c=c.drop('adjTransactionDate','a.GroupByFld') 我发现最后一行从数据集中删除了如果我简单地这样做： c=c.drop('adjTransactionDate','GroupByFld') 然后，从数据集中删除这两个GroupByFld。如何只删除属于源A的GroupByFld？

浏览 13提问于2019-01-04得票数 0

1回答

函数从大型数据集中删除重复的列。

尝试在连接hdfs表后删除pyspark df中的重复列名称？您好，我正在尝试连接多个具有200+最终列数的数据集。由于要求和大量的列，我不能在连接时选择特定的列。有没有办法在连接后删除重复的列。我知道有一种方法可以通过spark df的.join方法来做

浏览 20提问于2018-12-20得票数 1

2回答

Drop函数在连接数据帧的相同列后不能正常工作

、、、

我在连接两个数据帧A、B时也面临着同样的问题。对于ex： c = df_a.join(df_b, [df_a.col1 == df_b.col1], how="left").drop(df_b.col1) 当我像上面那样尝试删除重复列时，该查询不会删除df_b的col1，相反，当我尝试删除df_a的col1时，它能够删除df_a的col1。注意:我在我的项目中尝试了相同的方法，该

浏览 14提问于2019-10-08得票数 0

回答已采纳

1回答

PySpark -将列合并为包含列表的列

我有一个3列的星火数据。如果帮助，列1是唯一的键，没有重复。Col1 | Col2 | Col3 || 11 | 'a' | 13 |由此产生的数据文件NewCol2 | ------

浏览 7提问于2022-08-19得票数 0

回答已采纳

2回答

如何在pyspark sql的大表中选择除2列以外的所有列？

、、、、

在连接两个表时，我想从一个在databricks上的pyspark sql上有许多列的大表中选择除其中两列之外的所有列。我的pyspark sql： set hive.support.quoted.identifiers=none; select a.*, '?!所有列都在结果中。我想删除重复的列(结果中的</e

浏览 5提问于2020-07-28得票数 0

1回答

如何在下面的代码中传递数组(多列)

、、、

如何传递数组列表(多列)，而不是使用以下命令在pyspark中传递单个列：eg:-filter_list = ['##', '$'] 在本例中，'c

浏览 0提问于2017-11-27得票数 0

回答已采纳

1回答

枢轴后的PySpark连接列

、

, 7), ('2017-01-03', 'C', 9),('date', 'type', 'value')我想将它转换为列等于所有唯一的目前，我发现这段代码最接近于我想要实现的目标： df.groupby("date", "type").pivot("type")

浏览 2提问于2020-03-18得票数 1

回答已采纳

2回答

使用空值连接dataframe pyspark中的列

、、、

Industries RR IndustriesRR Industries.withColumn("Name3",F.concat(F.trim(Name1), F.trim(Name2)))我认为，问题发生在df2和df3中的名称列可用于连接表之后。在加入之前，它们不包含空值。问题:连接后

浏览 2提问于2020-06-01得票数 0

1回答

如何编写一个通用函数来连接两个PySpark数据格式？

、、、、

如何编写一个通用函数来连接两个PySpark数据格式？我想要编写一个函数，在两个数据文件上执行内部连接，并在加入后消除重复的公共列。据我所知，没有办法做到这一点，因为我们总是需要在加入时手动定义公共列。还是有办法？

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

改变unionAll顺序的火花聚结

DF3=DF1.unionAll(DF2)合并后，DF1总是放在DF2下，我看到原因是因为较小的分区位于最后，如下所示：。我们有办法和我的工会订同样的订单吗？DF1是第一位的，DF2是合并后的。

浏览 5提问于2022-02-10得票数 0

回答已采纳

2回答

用电火花改变多列的DataType

、、

我正试图用pyspark更改多列(100列)的数据类型，我试图创建一个循环或其他可以帮助更改100列(任何帮助)的内容，将不胜感激。这是帮助我更改3列的语法： IntegerTypedfcontract2 = dfcontract \ .withColumn

浏览 12提问于2022-07-19得票数 0

回答已采纳

1回答

如何获得PySpark列中缺失值的数值？

、、

我正在使用OpenFoodFacts数据集使用PySpark。有相当多的列完全由缺失的值组成，我想删除这些列。我一直在查找检索每一列中缺失值的数量的方法，但它们以表格格式显示，而不是实际给出总空值的数值。下面的代码显示列中缺少的值的数，但以表格式显示它 from pyspark.sql.functions import col,

浏览 5提问于2022-11-21得票数 0

回答已采纳

2回答

如何根据大小更改列值

、、、

我在PySpark设置中有一个dataframe。我想更改一个列，比如它叫做A，它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是，如果一行中只有一个字符，则希望将0连接到末尾。“修改”列的名称必须仍然是A。这是用于使用PySpark3的木星笔记本。这就是我迄今尝试过的： df = df.withColumn("A", when(size(df.c

浏览 2提问于2019-06-17得票数 1

回答已采纳

2回答

如何从以2K开头的pyspark数据帧中删除记录

、、

我使用的是pyspark 3.0.1。我想从我的pyspark数据帧df的列group中删除记录以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name Age

浏览 1提问于2021-03-04得票数 0

1回答

如何处理连接多个表后的空值

、、、、

我正在通过连接4个数据帧来创建一个新的数据帧，之后我需要连接来自不同数据帧数据的两个相同的列：Acc1 Acc1 Acc1Acc1null Acc3 Acc3 问题:如果我没有替换null值而进行连接；我在连接后丢失了信息；由于pyspark不删除公共列，我们有两个表中的两个Ac

浏览 18提问于2020-06-02得票数 0

回答已采纳

1回答

pySpark映射多列

、、、

我需要能够使用多列比较两个数据格式。pySpark尝试 # get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them

浏览 4提问于2020-05-15得票数 1

回答已采纳

1回答

Pyspark:有条件地连接带有空格的列

、

如果是，我需要按原样返回我的df。如果不是，我应该将那些不同的附加到我的ColA中。因此，在这个场景中，我们有不一致的B列，我的结果表应该如下所示： ColA | ColB | ColC | ColD return df return df 我有这个is

浏览 12提问于2020-10-07得票数 0

回答已采纳

4回答

如何在Python中排除Spark dataframe中的多列

、、、

我发现PySpark有一个名为drop的方法，但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗？selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']]) /usr/hdp/current/spark-client/python/pyspark

浏览 1提问于2016-02-28得票数 42

回答已采纳

1回答

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

、、、、

这些文件都具有类似的格式，第一列称为日期，第二列是一系列都命名为值的列。因此，首先，值列名需要重命名为每个csv文件中的文件名。第二，帧需要完全外部连接，以日期为主要索引。我正在尝试将所有文件完全连接到一个数据文件中，我以前尝试过使用熊猫，但是当我试图连接文件列表时内存不足，有人建议我尝试使用PySpark。, value DOUBLE") 但是所有的列都被命名为VALUE，框架变成了两列

浏览 4提问于2020-02-18得票数 0

回答已采纳

点击加载更多