对于每个key_id和date_month,输入pyspark数据帧都有一行。数据帧和Pandas之间进行切换的代码大约有30行:日期范围、连接等。有没有一种在PySpark中用一种直接的方式来做这件事的方法?我尝试过Pandas resampling from months to weeks,但当我的“主键”是date_month和key_id的组合时,我不知道如何让它工作。目前
给定一个pyspark.sql.dataframe.DataFrame x:name day earnings revenue Oliver 1 100 44 Oliver11 John 2 415 54 John 3 33 10 John 4 82 82
请注意,每个“子表”中的行数可能不同我尝试过以下方法:dict(tuple(x.groupby('name'))),它在Pandas