我是编程新手,正在清理和简化我的代码,以便在pyspark数据帧上执行groupby和聚合。我正在努力让事情变得更容易遵循,并一直在重构我的一些代码。当我尝试以下代码时,我得到一个错误: TypeError: Invalid argument, not a string or column: 下面是我的代码: groupBy = ['ColA'](F.col(c)) for f in funs_set for c in convert_to_set
我在表table1中有列a、b和c。我需要一个如下所示的查询:
select func1(a), func2(b,func1(a)) from table1 group by c.我目前正在使用窗口函数将func1(a)的结果存储在CTE中,然后执行上面的group by。执行计划显示发生了两个聚合-一个用于窗口聚合,另一个用于第二个group by的散列聚合。从