我想在pyspark中创建一个列,在第一行之后引用它自己。我知道我必须使用一个窗口函数,但我在创建一个函数时遇到了问题,这个函数实际上是在第一行之后引用自己,而第一行引用了另一列。我觉得它应该像下面这样,但是不确定它是如何工作的,以及你是否可以在创建它的时候引用一个专栏?df = df.withColumn('Column to be created',
F.when(F.col</
我有一个PySpark数据格式,我想根据某些列中的唯一值进行筛选。columns)
column_listnames and number of columns can be changed at runtime.
unique_dfs = [df for id, df in pandas_df.groupby(column_list,
= y then 'some_status_change' else cdc_status end as cdc_status
from dataframe where cdc_status= F.col('preferpathway'))), 'pathwayChange')) 但这会抛出以下错误 ValueError: Cannot convert column into bool:但本质上它们也都是基于字符串的列。我试着到处搜索,但在pyspa