我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLi
我正在dask中构建一个非常大的DAG,以提交给分布式调度器,在分布式调度器中,节点操作数据帧,而数据帧本身可能非常大。一种模式是,我有大约50-60个函数,用于加载数据和构造pandas数据帧,每个数据帧大小为几百MB (并且逻辑上表示单个表的分区)。(df) for df in dfs]
return dask.da