我有一个pysparkdataframe,其中一列填充了列表,要么包含条目,要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class
也许我可以检查列表的长度,并强
例如:How to automatically drop constant columns in pyspark?但我发现,没有一个答案解决了这个问题,即countDistinct()不将空值视为不同的值。因此,只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您
我有一个用例来映射基于条件的pyspark列的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用pyspark映射函数,但无法将pyspark列转换为dataFrame
注意:我之所以使用pyspark列,是因为我从我使用的库(远大期望)中获得了它的输入。replace the above logic with a map fun