我是Spark的新手,我正在尝试弄清楚使用它进行数据科学的程序是什么。具体地说,我知道如何从现有数据中创建数据帧,然后执行一些分析。
现在我正在尝试理解如何在数据帧中已经存在的数据上运行ML算法。当我查看ML文档时,我发现dataframes是从Vectors (密集或稀疏)创建的,但我现有的Dataframes并非如此。我想知道如何将具有多个列的现有数据帧转换为将单个列放置在向量中的数据帧?
当尝试先执行探索性分析和一些绘图,然后在相同的数据帧上执行ML时,通常的程序是什么?
发布于 2016-12-29 06:53:51
org.apache.spark.ml.feature / pyspark.ml.feature包含了大量的特征提取工具,这些工具被广泛地记录下来,(Extracting, transforming and selecting features)https://stackoverflow.com/questions/41370798
复制相似问题