专栏首页物流IT圈超详细的六款主流ETL工具介绍及功能对比

超详细的六款主流ETL工具介绍及功能对比

概述

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。最近用kettle做数据处理比较多,所以也就介绍下这方面内容,这里先对比下几款主流的ETL工具。

1、DataPipeline

Data Pipeline是一家为企业用户提供数据基础架构服务的科技公司,DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性, 以保证数据质量的完整性、一致性、准确性及唯一性,彻底解决数据孤岛和数据定义进化的问题。


2、Kettle

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。

PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

CHEF 允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

3、Talend

Talend,是一家专业的开源集成软件公司,为企业提供开源的中间件解决方案,从而让企业能够在他们的应用,系统以及数据库中赢取更大的价值。在传统软件公司提供封闭、私有的解决方案的领域Talend系列软件以开源的形式进行开发。Talend,可运行于 Hadoop 集群之间,直接生成 MapReduce 代码供 Hadoop 运行,从而可以降低部署难度和成本,加快分析速度。而且 Talend 还支持可进行并发事务处理的Hadoop2.0。


4、Informatica

Informatica是全球领先的数据管理软件提供商。在如下Gartner魔力象限位于领导者地位:数据集成工具魔力象限、数据质量工具魔力象限 、元数据管理解决方案魔力象限 、主数据管理解决方案魔力象限 、企业级集成平台即服务(EiPaaS)魔力象限。

Informatica Enterprise Data Integration包括Informatica PowerCenter和Informatica PowerExchange 两大产品,凭借其高性能、可充分扩展的平台,可以解决几乎所有数据集成项目和企业集成方案。

· Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(Pushdown Optimization)、团队开发和非结构化数据等。

· Informatica PowerExchange 是一系列的数据访问产品,它确保 IT 机构能够根据需要随时随地访问并在整个企业内传递关键数据。凭该能力,IT机构可以优化有限的资源和数据的业务价值。Informatica PowerExchange支持多种不同的数据源和各类应用,包括企业应用程序、数据库和数据仓库、大型机、中型系统、消息传递系统和技术标准。

5、Datax

DataX 是离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

开源地址:https://github.com/alibaba/DataX

6、Oracle Goldengate

GoldenGate软件是一种基于日志的结构化数据复制软件。GoldenGate 能够实现大量交易数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟。

源端通过抽取进程提取redo log或archive log日志内容,通过pump进程(TCP/IP协议)发送到目标端,最后目标端的rep进程接收日志、解析并应用到目标端,进而完成数据同步。

7、ETL工具对比

整理成表格如下:

本文分享自微信公众号 - 物流IT圈(exiter18)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 软件测试之大数据测试

    大数据的体量大、多样化和高速处理所涉及的数据生成、存储、检索和分析使得大数据工程师需要掌握极其高的技术功底。

    测试小兵
  • 利用Python进行数据分析(12) pandas基础: 数据合并

    坚持看完每一篇文章,践行自己最初想学好数据分析的目标,我们不像在学校那样,我们现在要提高效率,必须给自己定位目标以驱动型学习,这样才能学好一件事,李笑来说过,给...

    公众号---志学Python
  • 【Python MySQLdb】Library not loaded: /usr/local/mysql/lib/libmysqlclient.20.dylib解决办法

    20.dylib是有路径的, 如果这里没有路径需要添加路径, 使用下面用到的修改连接的方法

    周希
  • 一文了解GaussDB 200的产品架构、数据流程、组网方案、服务部署原则、企业级增强特性...

    墨墨导读:本文是对GaussDB 200产品的整体描述,包含产品架构、数据流程、组网方案、服务部署原则、企业级增强特性等。

    数据和云
  • Java 2019 生态圈使用报告,这结果你赞同吗?

    这是国外一机构调查了 7000 名开发者得出来的 Java 2019 年生态圈工具使用报告,主要调查了 Java 版本、开发框架、web 服务器等使用情况。虽...

    腾讯大讲堂
  • 与我一起学习微服务架构设计模式2—服务的拆分策略

    实现视图:构建编译系统的输出。由表示打包代码的模块(Jar文件)和组件(WAR文件)组成。

    java达人
  • 由浅入深说Serverless之云函数的生命周期

    这是 Serverless 最佳实践系列文章的第一篇,希望通过这系列文章帮助大家更深入的了解 Serverless 背后的机制并掌握相关的最佳实践。

    腾讯云serverless团队
  • DBA自述:非科班出身,如何成为Oracle ACE

    在九月,墨天轮平台举办了以“我的DAB”之路为主题的征文活动。每一位数据库从业者身上都有着很多与数据库的奇妙故事,有刚开始涉及到数据库的新奇,有一路学习成长的坎...

    数据和云
  • 某CMS最新版后台漏洞

    file_unlink("../../".list[info]); 这个点很有意思,list[info]从数据库met_plist表里读出,然后删除文件

    随心助手
  • 为什么客服需要中台战略(上)

    最近从朋友圈到各种培训,大家到处都在谈论“中台”,阿里、腾讯、字节跳动、华为等知名互联网公司及科技公司都相继发布自己的中台战略。那么到底中台是个什么鬼?

    云问科技

扫码关注云+社区

领取腾讯云代金券