Pyspark，合并多个数据帧(外部连接)，只保留主键的一次出现(基于两个列/键连接)

Pyspark是一种基于Python的Spark编程接口，用于在大数据处理中进行分布式计算和数据分析。它提供了丰富的功能和工具，可以处理大规模数据集，并支持并行处理和分布式计算。

在Pyspark中，合并多个数据帧（外部连接）并只保留主键的一次出现可以通过使用join操作来实现。join操作是一种将两个数据集基于某些列或键进行连接的操作。

以下是一个示例代码，演示如何在Pyspark中合并多个数据帧并只保留主键的一次出现：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName("DataFrameMerge").getOrCreate()

# 创建第一个数据帧
data1 = [("A", 1), ("B", 2), ("C", 3)]
df1 = spark.createDataFrame(data1, ["key", "value1"])

# 创建第二个数据帧
data2 = [("A", 4), ("B", 5), ("D", 6)]
df2 = spark.createDataFrame(data2, ["key", "value2"])

# 合并数据帧并只保留主键的一次出现
merged_df = df1.join(df2, on="key", how="outer").dropDuplicates(["key"])

# 显示合并后的数据帧
merged_df.show()

上述代码中，我们首先创建了两个数据帧df1和df2，分别包含了两个具有相同主键的数据集。然后，使用join操作将这两个数据帧基于主键进行外部连接，并通过dropDuplicates方法去除重复的主键。最后，使用show方法显示合并后的数据帧。

Pyspark中的join操作支持多种连接类型，如内连接（inner）、左连接（left）、右连接（right）和外连接（outer）。具体选择哪种连接类型取决于数据处理的需求。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云Spark：https://cloud.tencent.com/product/spark
腾讯云数据仓库（TencentDB for TDSQL）：https://cloud.tencent.com/product/tdsql
腾讯云数据湖（TencentDB for Data Lake）：https://cloud.tencent.com/product/datalake
腾讯云数据计算（TencentDB for Data Compute）：https://cloud.tencent.com/product/dc
腾讯云数据集成（TencentDB for Data Integration）：https://cloud.tencent.com/product/di

页面内容是否对你有帮助？

有帮助

没帮助

Pyspark，合并多个数据帧(外部连接)，只保留主键的一次出现(基于两个列/键连接)

python-3.x、merge、pyspark、outer-join

我有两个数据帧df2|Event_Type|30 05:30:00| 1.0|可能有几个数据帧，进行匹配的关键字/列是'Event_type‘和'st

浏览 7提问于2019-07-13得票数 0

回答已采纳

2回答

通过键重复的数据作为新列连接数据帧

python、pandas、dataframe

我有两个数据帧，假设是df1和df2，我需要通过一个键( ID_ed，ID )连接它们。第二个数据帧可能有多个键，我需要的是连接这两个数据帧，并将重复出现的键作为新列添加(如下图所示)。我尝试使用merge = df2.join( df1 , lsuffix='_

浏览 7提问于2019-02-02得票数 2

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接</em

浏览 13提问于2016-09-22得票数 0

1回答

按条件将Pyspark* DataFrame与sql like分区连接*

dataframe、apache-spark-sql、pyspark-sql

如何在sql like分区上按条件连接两个DataFrames？我实际上需要连接两个数据帧，以便对于每个组(基于一个列变量)，我与其他表进行外部连接。例如，我有以下两个数据帧： df2：所需的输出类似于：我曾尝试使用Pyspark的Window操作符，但无法使用，因为

浏览 12提问于2019-07-25得票数 0

1回答

连接后停止pyspark返回两个'on‘列

apache-spark、pyspark、apache-spark-sql

我在PySpark中有两个数据帧，并希望对它们执行外连接。我需要能够在每个表中不同且可能改变的列名上连接它们(因此需要是一个变量，而不是硬编码)。但是，当我此时执行此操作时，PySpark返回一个数据帧，其中包含正在联接的两个列，其中一些值填充了空值。30|+--------+--

浏览 16提问于2020-11-08得票数 1

回答已采纳

1回答

如何在pandas中执行多列的内连接

python、pandas

我有2个数据帧，即accidents_data，它有15列，bad_air_quality_data数据帧，它有5列。现在我想在列‘地区名称’，‘工作日’，‘小时’，‘月’上对两个数据框进行内部连接，最后在连接后只保留来自accidents_data的数据。accidents_data：bad_air_quality

浏览 3提问于2019-03-08得票数 0

1回答

无法将spark数据框列与df.withColumn()合并

python、apache-spark、apache-spark-sql、pyspark

我正在尝试合并两个不同数据类型的列。在下面的代码片段中，为了简单起见，我从相同的数据帧中选取了列。from pyspark.sql import SQLContext, Rowfrom datetime import datetime中并尝试用df.withColumn()合并它们时 b=df.select(&quo

浏览 6提问于2015-10-28得票数 4

1回答

通过连接比较两个pyspark数据帧

python、dataframe、join、pyspark

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','a

浏览 14提问于2021-02-13得票数 0

3回答

包含多个列的pyspark左外部连接

join、pyspark、spark-dataframe

我使用的是Pyspark 2.1.0。我正在尝试使用下面的代码执行两个数据帧的左外连接:我有两个数据帧，它们的模式如下： |-- CRIME_ID: string (nullable = true) |-- YEAR_MTH: string (nullable = true) |-- FINAL_OUTCOME: string (nullab

浏览 1提问于2017-04-27得票数 3

回答已采纳

1回答

使用查询消除重复列

sql

我有两个表，我需要连接100列中的每一列，结果应该包含这两个表中除主键列之外的所有列，主键列应该只出现一次，如下所示： pid sregion sdistrict

浏览 2提问于2017-07-27得票数 0

1回答

如何连接两个数据帧并保留pandas中的所有键列？

python、pandas、dataframe

我需要内部连接2个数据帧，使用的键与我在执行连接时创建的几个临时数据帧的键相同。下面的代码运行得很好，但我想知道，当使用subj作为键连接下面的两个熊猫数据帧时，是否有办法同时保留这两个连接键列。columns = [&#

浏览 11提问于2021-05-09得票数 0

2回答

表需要多个标识符。

sql、sql-server

我在这里读过几个关于需要主键的问题。就我创建这个表的方式而言，我找不到一种真正拥有唯一键的方法。这是一个调查型数据库。我有一个表格，主要的细节，如日期，分流号码，和有关的人。另一个表格是问题的结果，另一个是评论。我会使分流独特，但可以涉及多个人，所以相同的分类号码将被使用不止一次。有关人员也可以不止一次出现。唯一真正独特的事情是把人和分流结合起来

浏览 0提问于2013-11-11得票数 3

回答已采纳

1回答

SSIS数据流中的“不存在”

sql-server、ssis

我有一个数据流，其中我需要将来自两个不同源的数据合并到一个目标表中，但也希望只插入唯一值并忽略现有值。每个源都按散

浏览 1提问于2015-07-07得票数 1

1回答

在Azure数据工厂中使用Azure数据流有条件地向上插入到增量接收器中

azure-data-factory-2、dataflow、delta-lake、azure-data-flow

我在Azure数据流模块中有一个接收器增量，我用来更新它的dataframe有一个用于业务键的散列键和一个用于所有列内容的散列键。我希望将新的散列业务散列键插入到接收器中，并且仅在内容散列键不同时才更新现有散列键(本质上仅当已存在的业务密钥的</em

浏览 1提问于2021-06-10得票数 0

1回答

Y=pd.DataFrame(列表，column=“东西”)-需要解释

python、python-3.x、pandas、dataframe、numpy

pd.DataFrame(y, column='something')我不太明白这些代码是干什么的？

浏览 2提问于2021-10-18得票数 0

回答已采纳

1回答

Pandas Dataframe与多个键合并("AND“或" or "?)

python、pandas、merge、key

我需要合并两个数据帧。为了确保行是唯一的，我需要在合并之前验证"Name“和"Age”是否都匹配。我使用该组合作为主键。下面是我的代码： df = pd.merge(df, df1[['Name', 'Age', 'Date']], left_on=['Name', 'Age'], right_on=['Name'

浏览 104提问于2021-06-03得票数 0

2回答

如何根据不同数据帧的两个ID列的匹配来从数据框列中提取值？

r、match、extract

基本上，我希望根据两个不同数据帧的id匹配第一次出现的情况从列MakeText中提取值。一个dataframe只有唯一的ID，而另一个dataframe有多个具有相同ID的行，因此第一次出现的子句。对于MakeText列，每个唯一ID都有唯一的值。我尝试了在r中进行匹配和合并，但是由于<em

浏览 6提问于2019-05-21得票数 2

回答已采纳

1回答

将python列表中的数据合并到一个dataframe中

python、pandas

我在AAMC_K.txt、AAU.txt、ACU.txt、ACY.txt中的一个名为AMEX的文件夹中有以下文件。我正在尝试将这些文本文件合并到一个数据帧中。我曾尝试使用pd.merge()来执行此操作，但得到一个错误，即merge函数需要一个向右和向左的参数，并且我的数据在python列表中。如何将data_list中的数据合并为一个pandas数据帧。1998

浏览 52提问于2019-03-02得票数 0

2回答

如何以最佳方式合并两个大数据帧

python、pandas

我有两个数据帧，一个有超过60,000,000行，另一个有500,000行。我想基于多索引合并这两个数据帧。我的IDE是jupyter，我的PC内存是16G，CPU是2.3 the，64位。如何以最佳方式进行合并？我有一些要求。我需要拿到重叠的部分。此外，我想知道是否有一些更深层次的方法来优化它，比如使用Cpython或其他什么？我不知道，因为我只是在这里读到<e

浏览 0提问于2017-05-14得票数 2

4回答

帮助提高Server 2005查询执行时间

sql-server、performance、sql-server-2005、stored-procedures

我的一个存储过程有很长的执行时间(平均大约4到7分钟)。我想让它跑得更快。第二，要求最高的任务占“合并连接”(左外部连接)成本的26%。这是通过

浏览 0提问于2009-11-07得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark，合并多个数据帧(外部连接)，只保留主键的一次出现(基于两个列/键连接)

相关·内容

Pyspark，合并多个数据帧(外部连接)，只保留主键的一次出现(基于两个列/键连接)

通过键重复的数据作为新列连接数据帧

如何合并或连接spark中列号不相等的数据帧

按条件将Pyspark* DataFrame与sql like分区连接*

连接后停止pyspark返回两个'on‘列

如何在pandas中执行多列的内连接

无法将spark数据框列与df.withColumn()合并

通过连接比较两个pyspark数据帧

包含多个列的pyspark左外部连接

使用查询消除重复列

如何连接两个数据帧并保留pandas中的所有键列？

表需要多个标识符。

SSIS数据流中的“不存在”

在Azure数据工厂中使用Azure数据流有条件地向上插入到增量接收器中

Y=pd.DataFrame(列表，column=“东西”)-需要解释

Pandas Dataframe与多个键合并("AND“或" or "?)

如何根据不同数据帧的两个ID列的匹配来从数据框列中提取值？

将python列表中的数据合并到一个dataframe中

如何以最佳方式合并两个大数据帧

帮助提高Server 2005查询执行时间

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐