数据帧-当我们有唯一的( args_id,kwargs)对时,结果表中的类型列将是相同的。到目前为止,我已经写了这段代码-from pyspark.sql import functions as F
from pyspark.sql在我的代码中,我总是以递增的顺序获得args_id,这对于第一次运行是正确的,但是如果我在第二天再次运行json,或者可能是在同一天,在json文件中已经出现了一些(类型,args_id )
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是PySpark以下是一个例子: df- PySpark数据帧,由50+列组成