PySpark SQL中的用户定义聚合函数

在 PySpark SQL 中，用户定义聚合函数（User-Defined Aggregate Functions，简称 UDAF）允许您自定义聚合操作，以满足特定的业务需求。以下是使用 PySpark SQL 创建和使用自定义聚合函数的步骤：

定义自定义聚合函数类：首先，需要创建一个继承自 pyspark.sql.functions.UserDefinedAggregateFunction 的类，并实现以下三个方法：
- inputSchema: 定义输入数据的 schema。
- bufferSchema: 定义缓冲区（用于存储聚合中间结果）的 schema。
- dataType: 定义返回值的数据类型。
例如，我们创建一个计算每个分组中所有数值的平均值的自定义聚合函数： from pyspark.sql.functions import UserDefinedAggregateFunction from pyspark.sql.types import DoubleType, StructType, StructField class AverageUDAF(UserDefinedAggregateFunction): def inputSchema(self): return StructType([StructField("value", DoubleType())]) def bufferSchema(self): return StructType([ StructField("sum", DoubleType()), StructField("count", LongType()) ]) def dataType(self): return DoubleType()
实现聚合逻辑：在自定义聚合函数类中实现 update, merge, 和 evaluate 方法。
- update(buffer, input): 更新缓冲区，处理输入数据。
- merge(buffer1, buffer2): 合并两个缓冲区。
- evaluate(buffer): 计算并返回最终结果。
对于我们刚刚创建的 AverageUDAF 类，实现这些方法如下： import numpy as np class AverageUDAF(UserDefinedAggregateFunction): # ...（省略 inputSchema, bufferSchema 和 dataType 方法） def update(self, buffer, input): if input is None: return buffer["sum"] += input["value"] buffer["count"] += 1 def merge(self, buffer1, buffer2): buffer1["sum"] += buffer2["sum"] buffer1["count"] += buffer2["count"] def evaluate(self, buffer): return float(buffer["sum"]) / float(buffer["count"])
注册自定义聚合函数：在 Spark SQL 中注册自定义聚合函数，以便在查询中使用它。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("UDAF Example").getOrCreate() average_udaf = AverageUDAF() spark.udf.register("average", average_udaf)
在查询中使用自定义聚合函数：现在可以在 PySpark SQL 查询中使用自定义聚合函数了。 df = spark.read.csv("input.csv", header=True, inferSchema=True) df.createOrReplaceTempView("table") result = spark.sql("SELECT category, average(value) as avg_value FROM table GROUP BY category") result.show()