如果这个问题看起来很幼稚的话,我很抱歉,但是我对数据工程领域还很陌生,因为我现在是一个自学的人,但是我的问题是像宾得和Hadoop这样的ETL产品之间有什么区别呢?当我用这个代替那个的时候?或者我可以一起用,怎么用?
谢谢,
发布于 2018-04-25 08:36:27
ETL是一种提取数据、转换(连接、丰富、过滤、.)的工具。它并将结果加载到另一个数据存储区。良好的ETLS可视化,数据存储不可知,易于自动化。
Hadoop是一个分布在集群和软件网络上的数据存储,用于处理不受影响的数据。数据转换是专门针对少数几个基本操作进行的,这些操作可以优化到这种通常是海量的数据,比如(但不仅仅是) Map-Reduce。
宾得数据集成商有连接到Hadoop系统,这是很容易建立和调整。因此,最好的策略是将Hadoop网络设置为数据存储,并通过PDI对其进行操作。
发布于 2018-04-25 08:59:14
Pentaho是一个用于创建、管理、运行和监视ETL工作流的工具。它可以与Hadoop、RDBMS、队列、文件等一起工作。Hadoop是一个分布式计算平台(,HDFS等)。许多工具可以在Hadoop上运行,也可以连接到Hadoop并使用它的数据,运行进程。
Pentaho可以使用自己的连接器和读写数据连接到Hadoop。您可以从PDI中开始作业,也可以在转换流程中自行处理数据,并将结果存储或发送到HDFS、关系数据库管理系统、一些队列、电子邮件等。当然,您可以为ETL工作流发明自己的工具,也可以简单地使用bash+Hive等,但PDI允许以不依赖数据源和目标的统一方式进行ETL处理。同时,五旬节也有很好的视觉效果。
https://stackoverflow.com/questions/50016494
复制相似问题