我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLib例程中使用它感到
我有一个包含两列的DataFrame,index和values。我想获取基于列values的delayValues。这是我的代码: val input=new ArrayBuffer[(Int,Int)]() df.withColumn("valueDealy",first(col("values")).over(window)).show(