在进行聚类分析时,有一个数据帧,其中包含一堆不同的属性列和一个用于聚类标签的列。需要对这些数据进行汇总。执行groupby sum操作,这是我想对dataframe中的多个列执行的操作,需要将生成的tibble存储在一个列表中,最后将它们放在一起作为一个dataframe。sum(colnames(df)[i])))
dat$i = i
我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名