searches_df.withColumn('unique_id',reduce(column_concat,(searches_df[col] for col in search_parameters)))
除非列包含空值,否则整个级联字符串为空。我想要一个位置持有人或一些字符,而不是在串连字符串。
我希望将我的Pandas代码转换为PySpark,并通过将'session‘上的数据分组并转移数据以获得' next _timestamp’的下一行值来创建一个具有现有列的新列。但是对于每一组中的最后一行,我得到的是null值,我能够通过用现有的列值填充NA来克服这一点。需要在PySpark中实现同样的目标。df['