我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib,它似
在我的例子中,我在S3中有几个文件和一个自定义函数,该函数读取每个文件并使用所有线程进行处理。为了简化示例,我只生成了一个数据帧df,并且假设我的函数是使用多进程的tsfresh.extract_features。生成数据 import pandas as pdfrom tsfresh.examples.robot_execution_failuresrange(10)]
out = compute(to_pro