我需要帮助在pyspark数据帧主题。我有一个数据框架,比如1000+列和100000+ rows.Also,我有10000+ if elif条件,在每个if else条件下,只有很少的全局变量被一些值递增。现在我的问题是,我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数,它们根据条件返回行,我需要检查这些10000+ if else条件并
我有一个Pyspark,在其中我需要检查number列和是否drop the row if the size of value present is not 4 |number| 1345| +------++------++------+| 1345|我知道如何使用长度(df.number)来计算数字的大小,但是我无法实现所需的<
我正在开发一个动态脚本,它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题,但是我使用一个变量名执行连接,它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id"
unCha