我尝试为其中几个定义了Struct模式,如下所示- from pyspark.sql.types import StructType,StructField, StringType
from pyspark.sql.functions有没有一种方法可以处理所有这样的场景,或者在这个表或数据帧被读取时猜测结构模式,并将其相应的stringDictionary展平为它自己的单独列? 请帮帮忙。
pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。