我有一个包含87列的PySpark数据格式。我希望将dataframe的每一行传递给一个函数,并为每一行获取一个列表,以便我可以单独创建一个列。('category_debit_vector',(make_range_vector(struct([pivot_card[x] for x in pivot_card.columns] ),pivot_card.columns[3:],'debit')))
我是PySpark
2021 3 我想让它成为支点,我已经在expression pivotdata=spark.sql("select * from test").groupby("Country").pivot("Year").sum("Value").show()下面尝试过了 我得到了输出,但除了剩下的两列外,它只显示了几列 Country 2018 2019 2020 2021
US
我正在尝试创建一个函数,它将接受dict和schema作为输入,并返回一个数据框架,自动将未指定的字段填充为null。schema.fields, row_dict)) for row_dict in values)] schema我就是这样调用这个函数的:data, tempFile)
../../../.virtualenv/etl-orderlines-generic-pivot/lib/python