我想要使一个用户定义的聚合函数在吡火花。我为Scala找到了一些文档,并希望在Python中实现类似的功能。
更确切地说,假设我已经实现了这样一个函数:
def process_data(df: pyspark.sql.DataFrame) -> bytes:
... # do something very complicated here
现在我希望能做这样的事情:
source_df.groupBy("Foo_ID").agg(UDAF(process_data))
现在的问题是-我应该用什么来代替UDAF
发布于 2022-09-23 15:10:05
https://stackoverflow.com/questions/73817326
复制相似问题