连接后停止pyspark返回两个'on‘列

文章/答案/技术大牛

发布

1回答

、、

我在PySpark中有两个数据帧，并希望对它们执行外连接。我需要能够在每个表中不同且可能改变的列名上连接它们(因此需要是一个变量，而不是硬编码)。但是，当我此时执行此操作时，PySpark返回一个数据帧，其中包含正在联接的两个列，其中一些值填充了空值。30|+--------+------+--------+-------------+ 如上所述，用于连接</e

浏览 16提问于2020-11-08得票数 1

回答已采纳

1回答

如何编写一个通用函数来连接两个PySpark数据格式？

、、、、

如何编写一个通用函数来连接两个PySpark数据格式？我想要编写一个函数，在两个数据文件上执行内部连接，并在加入后消除重复的公共列。据我所知，没有办法做到这一点，因为我们总是需要在加入时手动定义公共列。还是有办法？

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

Teradata和Spark中的相似哈希算法

、、

因为Teradata中的表包含数十亿行，所以我希望我的PySpark脚本能够比较哈希值。Teradata：我的PySpark脚本使用JDBC连接来调用teradata： .format("jdbc"myDF.createOrReplaceTempView("myDF")我如何才能：在我对teradata的调

浏览 0提问于2019-01-16得票数 5

2回答

在多个列上使用AWS胶连接创建重复

、、、

我在AWS、table_1和table_2中有两个表，它们的模式几乎相同，但是table_2有两个额外的列。我试图将这两个表连接到相同的列上，并为模式不包括这些值的“旧”数据添加对table_2唯一的列，并将其为空值。这个调用成功地将表连接成一个表，但是，生成的joined_table具有匹配列的重复字段。我的两个问题是：我如何利用AWS Glue作业与Pyspark连接跨两个</em

浏览 0提问于2018-02-13得票数 4

2回答

示例数据来自partFitmentDF的选定列0450056 44011 OIL现在，我需要将这些多行逐个滚动到一行--不包括(属于一个项目的所有assembly_name和id都应该在一行中)，然后执行在最上面列出的task#1、2和3，以清理fits_assembly_name列，并将处理过的数据保存到最终的dataframe或带有itemno、fits_assembly_id和fits_assembly_name列</em

浏览 1提问于2019-10-31得票数 0

回答已采纳

1回答

PySpark优化两个大表的左连接

、、、

我在数据库上使用的是最新版本的PySpark。我有两个表，每个表的大小约为25-30 25。我想分别在"id“和"id_key”列加入Table1和Table2。我可以使用下面的命令做到这一点，但是当我运行我的spark作业时，连接是不对称的，导致我在一个执行器上+95%的数据，这使得作业永远不会停止。当我尝试在转换数据后加载数据时，就会发生这种情况。Table1总共有13列，其中" id“列有很多空值和一些实际的id值。 Table2总共

浏览 0提问于2021-04-28得票数 0

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如果两个数据文件中存在相同的ID，则创

浏览 3提问于2021-12-11得票数 0

1回答

PySpark动态连接条件

、、、

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', ..../yarn/usercache/root/appcache/application_1544185829274_0001/container_1544185829274_0001_01_000001/pyspark.zip/p

浏览 0提问于2018-12-07得票数 2

1回答

如何处理连接多个表后的空值

、、、、

我正在通过连接4个数据帧来创建一个新的数据帧，之后我需要连接来自不同数据帧数据的两个相同的列：Acc1 Acc1 Acc1Acc1null Acc3 Acc3 问题:如果我没有替换null值而进行连接；我在连接后丢失了信息；由于pyspark不删除公共列，我们有两个表中的两个Account列，我尝

浏览 18提问于2020-06-02得票数 0

回答已采纳

1回答

在pyspark中连接同名的Dataframe

、、、、

我有两个数据帧，它们是从两个csv文件中读取的。代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这两个使用NUMBER coumn的数据，生成的新数据帧如下。30| 4| 70|但我无法将此数据帧写入文件中，因为连接后的数据帧具有重复的

浏览 1提问于2018-10-03得票数 1

4回答

如何在Spark中压缩两个数组列

、、、、

我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下：df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的为了提高效率，我想在PySpark中做同样的事情。我已经成功

浏览 2提问于2019-01-21得票数 9

回答已采纳

2回答

如何在pyspark* sql的大表中选择除2列以外的所有列？*

、、、、

在连接两个表时，我想从一个在databricks上的pyspark sql上有许多列的大表中选择除其中两列之外的所有列。我的pyspark sql： set hive.support.quoted.identifiers=none;谢谢

浏览 5提问于2020-07-28得票数 0

1回答

PySpark在连接后删除列

如果我简单地这样做： c=c.drop('adjTransactionDate','GroupByFld') 然后，从数据集中删除这两个GroupByFld。

浏览 13提问于2019-01-04得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： df.show(3) listdf

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

枢轴后的PySpark连接列

、

, 7), ('2017-01-03', 'C', 9),('date', 'type', 'value')我想将它转换为列等于所有唯一的如果有人对我如何在PySpark中实现这一点有任何建议的话，那就太好了。

浏览 2提问于2020-03-18得票数 1

回答已采纳

1回答

如何根据列值组合对S3输出文件进行分区？

、、、

在那里，我使用PySpark并将其转换为拼图格式。我的原始数据是CSV，如下所示： id, date, data 1, 202003, x 2, 202003, y 1, 202004, z等...

浏览 7提问于2020-06-06得票数 1

回答已采纳

3回答

对子字符串匹配(或包含)加入PySpark数据帧

我想在两个数据帧之间执行左连接，但是列并不完全匹配。第一个数据帧中的联接列相对于第二个数据帧有一个额外的后缀。from pyspark import SparkContext ['AB-101', 3],

浏览 1提问于2017-08-08得票数 3

回答已采纳

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

、、、

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中cont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner').dro

浏览 2提问于2017-06-03得票数 1

2回答

使用空值连接dataframe pyspark中的列

、、、

IndustriesRR Industries.withColumn("Name3",F.concat(F.trim(Name1), F.trim(Name2)))我认为，问题发生在df2和df3中的名称列可用于连接表之后。在加入之前，它们不包含空值。问题:连接后；由于pyspark不会删除公共列，我们有两个表中的两个<

浏览 2提问于2020-06-01得票数 0

2回答

两个数据帧的Pyspark连接导致重复值错误

、

在连接两个数据帧时，我在pyspark中遇到了问题。第一个dataframe是一个单列的dataframe "zipcd"，第二个是四个列的dataframe。每当我试图连接两个dataframe时，问题就会出现，因为Pyspark在我的新dataframe中返回我，关于zipcd的一列，它的所有值都是相同的(第一行在所有行中都是重复的，它不是这样的)。另一个数据帧是zipcd： zip_cd1.show() +-

浏览 30提问于2021-07-01得票数 1

点击加载更多