首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >谷歌数据融合是否可以与DataPrep进行同样的数据清理?

谷歌数据融合是否可以与DataPrep进行同样的数据清理?
EN

Stack Overflow用户
提问于 2019-09-30 21:14:30
回答 1查看 3.8K关注 0票数 8

我想用一些数据运行一个机器学习模型。在用这些数据训练模型之前,我需要对它进行处理,所以我一直在阅读一些方法。

  1. 首先创建一个Dataflow管道,将其上传到Bigquery或,然后使用创建一个数据管道来清理它。
  2. 另一种方法是使用数据融合,它可以更容易地创建数据管道,但我不知道--这是我的怀疑,数据融合--它只是创建一个像Dataflow这样的管道,然后我必须使用DataPrep来清理数据,或者如果数据融合能够清理数据并准备将其放入我的机器学习模型中。

如果数据融合可以将数据清理为DataPrep,那么什么时候应该使用DataPrep呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-01 10:46:30

数据采集和数据代理可以执行相同的任务。然而,他们的执行是不同的。

  • 数据仓库创建一个火花管道并在Dataproc集群上运行它
  • Dataprep创建一个波束管道并在Dataflow上运行它。

国际海事组织“数据采集”更适合于从一个来源摄取数据到另一个来源,很少进行转换。Dataprep更适合于数据准备(作为其名称的意思)、数据清理、新列的创建、拆分列。Dataprep还提供了数据的洞察力,以帮助您在您的食谱。

此外,Beam是Tensorflow扩展的一部分,如果您使用与Beam兼容的工具,您的数据工程师管道将更加一致。

这就是为什么我将推荐Dataprep而不是Dataf图。

票数 19
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58175386

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档