在我通过使用窗口和对一组列进行分区来计算pysparkdataframe中每行5行内的平均数量之后 from pyspark.sql import functions as F
prep_df =consecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的组进行分组,并选择平均值的最大值= consecutive_df.g
我希望按一列分组,然后找到另一列的最大值。最后,显示基于此条件的所有列。然而,当我使用我的代码时,它只显示2列,而不是所有列。# Normal way of creating dataframe in pyspark (2,2,'0-2spark.createDataFrame([ (5,7,'6-8')],
['a
给定一个Spark DataFrame df,我想在某个数值列'values'中找到最大值,并获得达到该值的行。我当然可以这样做:# since I hope I get this done with DataFrameAPImax_value = df.select(F.max('values')).coll