我有一个问题,我想在Spark中实现一个递归算法,并希望了解是否有任何建议可以在Spark中构建它,或者探索其他可能更适合的数据分析框架。例如:作业需要递归地列出目录结构/树,并处理节点,结合map/reduce模式将路径或文件组映射到派生数据中,递归地对这些派生数据进行分组/合并。构建一个在单个节点上运行的解决方案是很简单的(例如,spark mas
我对pyspark非常陌生,正在尝试使用它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入spark dataframe,删除一些列,然后添加新列。我该怎么做呢?我在将这些数据放入数据帧时遇到了问题。reducing to a dataframe的想法是能够将结果数据写入数据库(Redshift,使用spark-redshift包)。我也尝试过在partial()中使用unionAll()和map