我想用一些数据运行一个机器学习模型。在用这些数据训练模型之前,我需要对它进行处理,所以我一直在阅读一些方法。
如果数据融合可以将数据清理为DataPrep,那么什么时候应该使用DataPrep呢?
发布于 2019-10-01 10:46:30
数据采集和数据代理可以执行相同的任务。然而,他们的执行是不同的。
国际海事组织“数据采集”更适合于从一个来源摄取数据到另一个来源,很少进行转换。Dataprep更适合于数据准备(作为其名称的意思)、数据清理、新列的创建、拆分列。Dataprep还提供了数据的洞察力,以帮助您在您的食谱。
此外,Beam是Tensorflow扩展的一部分,如果您使用与Beam兼容的工具,您的数据工程师管道将更加一致。
这就是为什么我将推荐Dataprep而不是Dataf图。
https://stackoverflow.com/questions/58175386
复制相似问题