我正在尝试用开源框架来做ETL,我听说过两件事,Apache Beam和Apache Airflow,这两件事最适合整个ETL或ELT,比如Talend、Azure Data Factory等,事实上,我正在尝试用云数据仓库(redshift、azure数据仓库、雪花等)来做所有的事情。哪一个对这些类型的工作更好,如果我能在这两个框架之间进行一些比较,那就太好了。提前谢谢。
发布于 2019-07-10 00:17:05
Apache Airflow不是ETL框架,它是调度和监控工作流应用程序,该应用程序将调度和监控ETL管道。Apache Beam是用于定义数据处理工作流的统一模型。
这意味着您的ETL管道将使用Apache光束编写,而Airflow将触发和调度这些管道。
发布于 2019-07-11 15:41:04
Apache Airflow:是一个调度和监控工具。您需要编写ETL脚本(使用Python或Scala),并使用Apache Airflow运行相同的脚本。
像Talend,Informatica这样的工具提供了很多丰富的UI和内置的功能,你可以做一些简单的事情,比如从数据转储到高度复杂的转换。除此之外,调度、编排等可以使用它自己的调度功能来完成。
如果您正在尝试构建一个具有很多复杂性的企业级数据仓库,我建议您继续使用企业级ETL工具。这将在可管理性、支持、调试等方面为您带来长期的好处。
https://stackoverflow.com/questions/56951922
复制相似问题