我需要帮助在pyspark数据帧主题。我有一个数据框架,比如1000+列和100000+ rows.Also,我有10000+ if elif条件,在每个if else条件下,只有很少的全局变量被一些值递增。现在我的问题是,我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数,它们根据条件返回行,我需要检查这些10000+ if else条件并执行一些操作。
任何帮助都将不胜感激
我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前,我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作,我从多个.JSON文件创建了初始数据帧。此数据框已子集,因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止,我已经尝试了两种不同的方法,使用sqlContext和使用Pyspark方法。)' du