PySpark :如何组合具有相同列的2个DataFrame，并生成具有唯一且更新的行的新DataFrame

在Apache Spark中，PySpark是一个用于大规模数据处理的Python API。当你有两个具有相同列的DataFrame，并且你想将它们组合成一个具有唯一且更新行的新DataFrame时，你可以使用几种不同的方法来实现这一点。以下是一些常见的方法：

基础概念

DataFrame: Spark中的DataFrame是一个分布式数据集，类似于关系型数据库中的表或R/Python中的数据框，但具有优化的性能。
Join操作: 在Spark中，Join操作用于将两个DataFrame基于某些键值进行合并。

类型

内连接（Inner Join）: 只返回两个DataFrame中键匹配的行。
左连接（Left Join）: 返回左DataFrame的所有行以及右DataFrame中匹配的行。
右连接（Right Join）: 返回右DataFrame的所有行以及左DataFrame中匹配的行。
全外连接（Full Outer Join）: 返回两个DataFrame中所有的行，不匹配的行用null填充。

应用场景

数据清洗: 合并来自不同源的数据集，并移除重复项。
数据分析: 结合多个数据集以进行更复杂的分析。
ETL过程: 在数据仓库的提取、转换、加载过程中合并数据。

示例代码

假设我们有两个DataFrame df1 和 df2，它们都有一个名为 id 的列，我们想要创建一个新的DataFrame，其中包含所有唯一的行，并且如果两个DataFrame中有相同的 id，则使用 df2 中的值覆盖 df1 中的值。

from pyspark.sql import SparkSession

# 初始化SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

# 假设df1和df2已经被创建并且具有相同的列
# df1 = ...
# df2 = ...

# 使用union和dropDuplicates来合并DataFrame并移除重复项
# 使用withColumn和when来实现更新逻辑
combined_df = df1.union(df2).dropDuplicates(["id"]).withColumn(
    "value", 
    when(df2["id"].isNotNull(), df2["value"]).otherwise(df1["value"])
)

# 显示结果
combined_df.show()