我有一个pysparkdataframe,其中一列填充了列表,要么包含条目,要么只包含空列表。我想高效地过滤掉所有包含空列表的行。import pyspark.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class
也许我可以检查列表的长度,并强制它应该大于0(参见)。但是,如果我
如果我调用map或mapPartition,并且我的函数接收来自PySpark的行,那么创建本地PySpark或Pandas DataFrame的自然方法是什么?合并行并保留架构的东西?目前,我所做的事情如下: rows = [x for x in partition]
dfpart = pd.DataFrame(rows
例如:How to automatically drop constant columns in pyspark?但我发现,没有一个答案解决了这个问题,即countDistinct()不将空值视为不同的值。因此,只有两个结果null和none NULL值的列也将被删除。一个丑陋的解决方案是将spark dataframe中的所有null值替换为您确信在dataframe中其他地方不存在的值。但就像我说的那样那将是非常