我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib,它似
我的数据是一个巨大的数据帧,看起来像这样(这是数据帧的头部) import pandas
data = dd.read_csv(data_path~\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\common.py in apply_if_callable()= c_double