2018年ETL工具比较

提取,转换和加载(ETL)工具使组织能够跨不同的数据系统使其数据可访问,有意义且可用。通常,公司在了解尝试编码和构建内部解决方案的成本和复杂性时,首先意识到对ETL工具的需求。

在选择合适的ETL工具时,您有几种选择。您可以尝试组装开源ETL工具以提供解决方案。这种方法适用于某些情况,但公司经常发现自己需要更多 - 更多功能/特性,更多灵活性和更多支持。

下一个选择是与现任提供商合作:一种能够很好地处理当今流行数据源和流的解决方案。现有供应商提供大型或知名品牌的稳定性和舒适性。

第三类ETL工具是现代ETL平台。这些通常是基于云的解决方案,并为从现有数据源到云数据仓库的ETL数据提供端到端支持。它们还可以支持不断增长的基于Web的数据流列表。

对于这篇文章,我们将深入探讨现有ETL工具的世界 - 它们的优势和缺点 - 然后快速浏览一下现代ETL平台。

现任ETL工具概述

现有的ETL工具构成了ETL工具市场的大部分 - 这是有道理的。它们已经存在时间最长,许多是由非常大的公司(微软,IBM等)设计的,因此预先安装的客户群非常庞大。

其中一些工具包括一组一起使用的工具,可以自定义以解决特定问题。由于许多公司将其数据存储在传统的单片数据库和系统中,因此制造商可以很好地提供工具来迁移数据并支持现有的批处理方法。

现任受欢迎的ETL工具

这不是一个完整的清单,但确实涵盖了主要产品。

IBM InfoSphere Information Server

IBM InfoSphere Information Server是ETL工具,是IBM Information Platforms Solutions套件和IBM InfoSphere的一部分。它使用图形表示法构建数据集成解决方案,并提供各种版本(服务器版,企业版和MVS版)。

Informatica PowerCenter

Informatica PowerCenter是ETL产品套件的通用名称,包括PowerCenter客户端工具,服务器和存储库。

数据存储在存储库中,客户端工具和服务器访问它。操作在服务器上执行,服务器连接到源和目标以获取数据,应用所有转换,并将数据加载到目标系统中。

iWay Software

Information Builders的iWay Integration Suite提供应用程序和数据集成功能。客户使用它们来管理结构化和非结构化信息。该套件包括iWay DataMigrator,iWay Service Manager和iWay Universal Adapter Framework。

Microsoft SQL Server Integration Services

Microsoft SQL Server Integration Services(SSIS)是一个用于构建高性能数据集成解决方案的平台,包括用于数据仓库的ETL包。

OpenText

OpenText的集成中心是一个整合的平台,让组织中提取,提升,改造,整合,以及一个或多个存储库迁移数据和内容,任何新的目标的能力。

Oracle GoldenGate

Oracle GoldenGate是一个全面的软件包,用于在异构IT环境中进行实时数据集成和复制。

Pervasive Software

Pervasive的Data Integrator平台是一种企业数据集成软件解决方案,使公司能够在任何类型的数据源和应用程序之间建立连接。Data Integrator支持实时集成方案。

Pitney Bowes

Pitney Bowes提供了一整套针对数据集成的工具和解决方案。Sagent Data Flow是一个灵活的集成引擎,可以整理来自不同来源的数据,并提供一整套数据转换工具来增强其业务价值。

SAP Business Objects Data Services

SAP BusinessObjects Data Services(BODS)以前是Business Objects Data Integrator,是一种用于数据集成,数据质量,数据分析和数据处理的ETL工具。它允许您集成和转换可信的数据到数据仓库系统,以进行分析报告。

SAS数据管理

SAS数据管理建立在SAS平台之上,是SAS进入工具市场的ETL。该平台包括一个大型套件(20多个)的SAS工具和服务。

Sun Java Composite Application Platform Suite

Sun的ETL和数据集成工具是大型Java组合应用程序平台套件(CAPS)的一部分。CAPS或Java CAPS是Oracle Corporation的基于标准的企业服务总线软件套件。Java CAPS有几个组件有助于在面向服务的体系结构环境中集成现有应用程序并提供新的业务服务。

SYBASE

Sybase ETL包括Sybase ETL Development和Sybase ETL Server。

Sybase ETL Development是一个用于创建和设计数据转换项目和作业的GUI工具。该工具提供了完整的仿真和调试环境,旨在加速ETL转换流程的开发。Sybase ETL Development包括一个ETL开发服务器,用于控制实际处理,例如连接到数据库和执行过程。

Sybase ETL Server是一个可伸缩的分布式网格引擎,它使用转换流(使用Sybase ETL Development设计)连接到数据源并提取数据并将数据加载到数据目标。

Syncsort

SyncSort云解决方案可访问和集成来自各种来源的数据,并有助于将数据移至云存储库。

现有ETL工具的局限性

现有工具的最大限制是它们被设计为批量工作:收集一些数据,上传,收集更多数据,上传等等。批量加载数据在某些情况下有效; 但是,仅批量方法存在问题。

对于跨平台数据源,批处理数据转换工具很难实现,尤其是涉及变更数据捕获(CDC)的情况。当您的批量数据上传出现问题时,您需要快速跟踪问题,排除故障并重新提交作业。这种错误处理至关重要,因为丢失的数据可能是一个巨大的问题,例如,如果您超过了数据仓库中24小时的API调用分配,或者传入的数据被备份和CDC信息丢失或被覆盖。

那些不断增长的流媒体和其他类型的数据源呢?它们不适合围绕批处理设计和构建的工具集,特别是当今要求尽可能快地提供最新数据。

现代ETL工具概述

现代ETL工具套件是基于实时流数据处理和云计算而构建的。这些最新的条目诞生于与先进的云数据仓库良好集成,并支持不断增长的数据源和流。

今天的趋势继续指向云,将IT和ETL迁移到云只是有意义的。基于云的ETL服务是自然的下一步。它们支持与其前辈相同的批处理模型,但它们将ETL带入下一阶段,通常提供对实时数据,智能模式检测等的支持。

对ETL过程的现代要求使批处理方法几乎过时。随着公司及其客户需要最新鲜的数据,夜间财务或库存更新的日子已经一去不复返了。跟上不断增长的数据流列表的公司需要实时的ETL处理。

随着对实时数据访问的需求,架构发生了根本性的变化。今天的模型基于流处理和分布式消息队列,如Kafka。来自Alooma等公司的现代方法将这些新技术融入其中,以提供SaaS平台和本地解决方案。作为流的一部分,现代ETL平台提供不同级别的转换,从几乎没有(相反,转换发生在数据仓库中,加载后,AKA ELT)到完全控制通过代码(Python,Java等)。

最后一个难题是数据完整性。如果部分流程落后或失败,会发生什么?通过管道的数据会发生什么变化?任何真正现代的ETL平台都需要内置强大的安全网来进行错误处理和报告。

受欢迎的现代ETL平台和工具

这是最常见的现代ETL平台和工具的列表。

Alooma

Alooma是一个为云构建的企业数据管道平台。Alooma为数据团队提供了一个现代的,可扩展的基于云的ETL解决方案,将来自任何数据源的数据汇集到任何数据仓库中,所有这些都是实时的。

  • 错误处理:处理,监控/报告,重新开始
  • 转换:ETL支持Python转换

Confluent

Confluent是一个基于Apache Kafka的全面数据流平台,能够在流中发布和订阅以及存储和处理数据。Confluent提供其平台的开源版本。

  • 错误处理:仅监控
  • 转型:ETL,Kafka Streams API

Fivetran

Fivetran是一种SaaS数据集成工具,可从不同的云服务,数据库和商业智能(BI)工具中提取数据并将其加载到数据仓库中。

  • 错误处理:仅监控
  • 转型:ELT,有限

FlyData

FlyData是一个SaaS数据迁移工具,可以管理从MySQL,PostgreSQL,MariaDB,Percona和CSV / TSV / JSON日志到Amazon Redshift数据仓库的数据加载过程。

  • 错误处理:是的,缓冲
  • 转型:ELT,有限

Matillion

Matillion提供专为Amazon Redshift,Google BigQuery和Snowflake构建的云数据集成ETL工具。

  • 错误处理:通过代码支持,不是内置的
  • 转型:ETL,图形构建器

SnapLogic

SnapLogic提供数据集成平台即服务工具,用于连接云数据源,SaaS应用程序和本地业务软件应用程序。

  • 错误处理:支持但不是内置的
  • 转型:ETL,图形构建器

Stitch Data

Stitch是一个云端优先,以开发人员为中心的工具,用于快速移动数据。

  • 错误处理:手动,记录记录在拒绝表中
  • 转型:准ETL,有限

StreamSets

StreamSets是一个云原生的产品集合,用于控制数据漂移; 数据,数据源,数据基础设施和数据处理方面的变化问题。

  • 错误处理:是(错误记录处理)
  • 转型:ETL,代码和GUI

Striim

Striim(发音为“stream”)是一个实时的流分析和数据集成平台。

  • 错误处理:仅监控
  • 转换:ETL,内置和Java功能

结论

今天对高级数据分析的需求需要一种现代的数据集成方法。无论您是要合并来自数据库,流媒体服务,文件还是其他来源的数据,选择正确的工具集都至关重要。内置和云端的现代平台可以为您的企业提供所需的优势。

原文标题《2018 ETL Tools Comparison》

作者:Garrett Alley

译者:February

不代表云加社区观点,更多详情请查看原文链接

原文链接:https://dzone.com/articles/2018-etl-tools-comparison-1

原文作者:Garrett Alley

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏京东技术

移动测试避坑指南(第一篇):从流程到技术的知识概要

20740
来自专栏程序你好

软件架构30条原则

原则 1: KISS (Keep it simple, stupid) “指设计时要坚持简约原则,避免不必要的复杂化。” 其思想是使用最简单的解决方案来完成这项...

11820
来自专栏Java架构师学习

推荐一个Java开发的架构技术栈一:常见模式与工具二:工程化与工具三:分布式架构四:微服务架构五:性能优化六:底层知识

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。

11510
来自专栏NetCore

SSA-一种适合中小型企业的新型服务架构

28200
来自专栏大数据文摘

Facebook数据被滥用?8个视频案例教你用好Facebook Graph API

15320
来自专栏大数据钻研

十年Web开发技术经验感受

这里列举的后台技术,所有是我工作中所有的要点,并进行了简单的归类,如果你有更好的归类方式,欢迎提出。   我想其中的重点应该还是服务器脚本部分,例如Java,...

377120
来自专栏灯塔大数据

大数据圈盘点:你不知道的15个新技术

大数据中的大作为 对于大数据来说,业界这几周算是比较忙碌的。因为很多初创公司和一些老牌的公司都推出了数据分析和数据管理产品,以及更新了现有产品,提供更丰富的功能...

31060
来自专栏微信公众号:Java团长

视频:体系化学习 Java 微服务架构

可以说,Java是现阶段中国互联网公司中,覆盖度最广的研发语言,掌握了Java技术体系,不管在成熟的大公司,快速发展的公司,还是创业阶段的公司,都能有立足之地。

14810
来自专栏美图数据技术团队

日活跃数千万,10亿级APP大数据统计分析平台的架构演进

美图拥有十亿级用户,每天有数千万用户在使用美图的各个产品,从而积累了大量的用户数据。

20820
来自专栏CSDN技术头条

世上没有完美的架构

微服务架构的技术体系、社区目前已经越来越成熟。在最初系统架构的搭建,或者当现有架构已到达瓶颈需要进行架构演进时,很多架构师、运维工程师会考虑是否需要搭建微服务架...

16370

扫码关注云+社区

领取腾讯云代金券