首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在现有数据帧上运行ML算法

在现有数据帧上运行ML算法
EN

Stack Overflow用户
提问于 2016-12-29 06:46:27
回答 1查看 31关注 0票数 0

我是Spark的新手,我正在尝试弄清楚使用它进行数据科学的程序是什么。具体地说,我知道如何从现有数据中创建数据帧,然后执行一些分析。

现在我正在尝试理解如何在数据帧中已经存在的数据上运行ML算法。当我查看ML文档时,我发现dataframes是从Vectors (密集或稀疏)创建的,但我现有的Dataframes并非如此。我想知道如何将具有多个列的现有数据帧转换为将单个列放置在向量中的数据帧?

当尝试先执行探索性分析和一些绘图,然后在相同的数据帧上执行ML时,通常的程序是什么?

EN

Stack Overflow用户

发布于 2016-12-29 06:53:51

  • org.apache.spark.ml.feature / pyspark.ml.feature包含了大量的特征提取工具,这些工具被广泛地记录下来,(Extracting, transforming and selecting features)
  • Spark不适合于探索性数据分析。通常,您可以使用Spark来采样/清理/聚合和收集数据,以便使用独立的本地工具进行可视化。商业环境(如Databricks)和一些开源库(如Apache Zeppelin)提供了有限的工具,可直接用于收集的结果。
票数 1
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41370798

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档