我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。
看看谷歌的云服务,DataProc似乎也可以做同样的事情。
而且看起来DataProc比DataFlow便宜一点。
有没有人知道相对于DataProc,DataFlow的优缺点
为什么谷歌同时提供这两种服务?
发布于 2017-09-27 08:44:46
可以,Cloud Dataflow和Cloud Dataproc都可以用于实现ETL数据仓库解决方案。
可以在Google Cloud Platform Big Data Solutions Articles中找到这些产品存在的原因的概述。
快速总结:
发布于 2018-10-22 19:36:56
在尝试在Dataproc和Dataflow之间进行选择时,需要考虑以下三个要点
Dataproc -手动配置群集
数据流-无服务器。Automatic provisioning of clusters
如果处理过程与Hadoop ecosystem.
数据流/光束在处理逻辑和底层执行引擎之间提供了清晰的分离。这有助于跨支持光束运行时的不同执行引擎的可移植性,即相同的流水线代码可以在数据流、Spark或Flink上无缝运行。
谷歌网站上的这张流程图解释了如何选择其中一个。
https://cloud.google.com/dataflow/images/flow-vs-proc-flowchart.svg
有关更多详细信息,请参阅以下链接
https://cloud.google.com/dataproc/#fast--scalable-data-processing
发布于 2017-09-27 07:16:44
与Dataproc同时提供Hadoop和Spark的原因相同:有时一种编程模型最适合这项工作,有时另一种。同样,在某些情况下,最适合这项工作的是由Dataflow提供的Apache光束编程模型。
在许多情况下,一个重要的考虑因素是已经有一个针对特定框架编写的代码库,并且只想将其部署在Google Cloud上,所以即使,比方说,横梁编程模型优于Hadoop,拥有大量Hadoop代码的人仍然可能暂时选择Dataproc,而不是在横梁上重写代码以在数据流上运行。
Spark和Beam编程模型之间的差异非常大,并且在许多用例中,每种模型都有很大的优势。参见https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。
https://stackoverflow.com/questions/46436794
复制相似问题