我有一个PySpark数据帧(Df),其中包含50+列,其中包含一些动态列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是PySpark以下是一
pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
我想用Linq编写这个简单的查询:from cmr_invhdrgroup by issuercode,securitycode,dataprocessingflag我尝试了下面的代码,但是我得到了这个错误( DbExpressionBinding需要一个带有集合ResultType的输入表达式。参数