我有一个数据帧列表,在列表的每个位置上,我有一个数据帧,我需要将所有这些数据帧合并到一个数据帧中。在我使用之前,这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import *
from pyspark</e
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是PySpark以下是一个例子: df- PySpark数据帧,由50+列组成