首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

聊一聊 ETL设计

直接上一个网上搜到的招聘信息看一下: 职位名称: ETL工程师 职位职责: 负责ETL系统研发和对外支持工作; 设计科学的数据抽取、转换、加载的工作流程,保证数据及时、正确地抽取到数仓中; 负责安排...到了这一步,我们不再纠结于具体的 ETL 概念是什么,仅从自己的直观理解上来定义 ETL,不管严谨不严谨,反正这些活 ETL 工程师基本都要干。...0x02 数据流长什么样子 举个栗子 举个简单的栗子,下面是一个种数据流的设计,蓝色的框框代表的是数据来源,红色的框框主要是数据计算平台,绿色的 HDFS 是我们一种主要的数据存储,Hive、Hbase...现在的大部分数据流的设计都会有离线和实时相结合的方案,即 Lambda 架构,感兴趣的同学可以了解一下。 0x03 举个栗子 前段时间和一个哥们再聊数据流的设计,正好这里大概描述一下场景和解决方案。...本来最初是想用 Hbase 来作为实时查询的,但是由于考虑到会有实时检索的需求,就暂定为ES 三、方案设计 最终,我们使用了下面的方案。 ?

3.3K40

ETL是什么_ETL平台

在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行...(主要取决于系统的架构设计和数据属性)。...五、如何才能做好ETL 1、数据抽取设计 数据的抽取需要在调研阶段做大量工作,要搞清楚以下几个问题:数据是从几个业务系统中来?各个业务系统的数据库服务器运行什么DBMS?...等等类似问题,当收集完这些信息之后进行数据抽取的设计。...常见的数据抽取设计方式有四种: (1)与存放DW(Data Warehouse 数据仓库)的数据库系统相同的数据源处理方法 这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle

1.9K31
您找到你想要的搜索结果了吗?
是的
没有找到

ETL

如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。...在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。   ...数据模型:标准定义数据   合理的业务模型设计ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。...数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构,而ETL则会依照模型的定义去提取数据源...设计过程的各对象的逻辑定义存储在一个元数据资料库中。   Meta data management 提供一个关于ETL设计和运行处理等相关定义、管理信息的元数据资料库。

6.5K32

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗。得到符合要求的“干净”数据,并加载到数据仓库中进行存储。这些“干净”数据就成为了数据分析、数据挖掘的基石。...ETL重要性ETL是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ETL会花费整个BI项目三分之一的时间,因此ETL设计得好坏直接影响BI项目的成败。...ETL工具有哪些datastage (收费) 最专业的ETL工具, 2005年被IBM收购,目前发展到11.7版本。...https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499/etl-engine...) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发

2K10

ETL工程】大数据技术核心之ETL

经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。 3....大数据技术之数据采集ETL: 这里不过多的说数据采集的过程,可以简单的理解:有数据库就会有数据。 这里我们更关注数据的ETL过程,而ETL前期的过程,只需要了解其基本范畴就OK。...在数据挖掘的范畴了,数据清洗的前期过程,可简单的认为就是ETL的过程。ETL的发展过程伴随着数据挖掘至今,其相关技术也已非常成熟。这里我们也不过多的探讨ETL过程,日后如有涉及,在细分。...有人写FTP的程序,可以用bat,可以用ETL工具,可以用其他的方式,总之要准确,而且方便调用和控制。 3. 有人设计数据模型,包括在1之后导出的结构,还有ODS和DWH中的表结构。 4....异常处理 在ETL的过程中,必不可少的要面临数据异常的问题,处理办法: 1. 将错误信息单独输出,继续执行ETL,错误数据修改后再单独加载。中断ETL,修改后重新执行ETL。原则:最大限度接收数据。

3K100

Kettle构建Hadoop ETL实践(一):ETL与Kettle

(4)设计灵活性 一个ETL工具应该留给开发人员足够的自由度来使用,而不能通过一种固定的方式限制用户的创造力和设计的需求。ETL工具可以分为基于过程的和基于映射的。...(5)复用性 设计完的ETL转换应该可以被复用,这也是ETL工具的一个不可或缺的特征。复制和粘贴已存在的转换步骤是最常见的一种复用,但这还不是真正意义上的复用。...ETL设计过程和直接用开发语言写程序很相似,也就是说在写程序时用到的一些步骤或过程同样也适用于ETL设计。测试也是ETL设计的一部分。...Kettle设计原则 Kettle工具在设计之初就考虑到了一些设计原则,这些原则也借鉴了以前使用过的其它一些ETL工具积累下的经验和教训。...用户只需要告诉它做什么,而不用指示它怎么做,这大大提高了ETL过程的开发效率。在Spoon界面中,用户通过简单拖拽就能完成绝大部分ETL设计工作。

4.2K67

大数据ETL详解

ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。...ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。   ETL设计分三部分:数据抽取、数据的清洗转换、数据的加载。...在设计ETL的时候也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。...等等类似问题,当收集完这些信息之后才可以进行数据抽取的设计。...1、与存放DW的数据库系统相同的数据源处理方法   这一类数源在设计比较容易,一般情况下,DBMS(包括SQLServer,Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写

1.5K20

java etl 简单实例_东方通ETL开发实例

东方通ETL开发实例 下面通过一个简单的“Oracle CDC增量抽取”实例,带大家感受一下TIETL的 开发思路和强大的数据处理能力。...功能需求: 同一数据库(localhost_etl)下,现有cdc_source和cdc_target两张表如下: 表cdc_source 表cdc_target 现表cdc_source的增量(增、删...转换设计: 根据对需求的分析结合TIETL现有的组件设计如下 因TIETL对数据库插入/更新和删除操作做了区别对待,所以通过中间的内容路径进行流程控制。 现分别对每个组件进行配置和解释。...执行过程: cdc_source表中插入若干数据 cdc_target表为空 执行前面设计的转换后 cdc_target表如下 CDC成功执行!更新和删除操作执行过程相同,故不作赘述。

99820

大数据ETL实践探索(3)---- 大数据ETL利器之pyspark

---- 大数据ETL 系列文章简介 本系列文章主要针对ETL大数据处理这一典型场景,基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战...本地文件上传至aws es spark dataframe录入ElasticSearch 等典型数据ETL功能的探索。...系列文章: 1.大数据ETL实践探索(1)---- python 与oracle数据库导入导出 2.大数据ETL实践探索(2)---- python 与aws 交互 3.大数据ETL实践探索(3)...---- pyspark 之大数据ETL利器 4.大数据ETL实践探索(4)---- 之 搜索神器elastic search 5.使用python对数据库,云平台,oracle,aws,es导入导出实战...6.aws ec2 配置ftp----使用vsftp 7.浅谈pandas,pyspark 的大数据ETL实践经验 ---- pyspark Dataframe ETL 本部分内容主要在 系列文章

3.7K20

c语言开发ETL,【ETL开发工作内容|工作职责|ETL开发做什么】-看准网「建议收藏」

一个优秀的ETL设计应该具有如下功能: 管理简单 采用元数据方法,集中进行管理;接口、数据格式、传输有严格的规范;尽量不在外部数据源安装软件;数据抽取系统流程自动化,并有自动调度功能;抽取的数据及时、准确...标准定义数据 合理的业务模型设计ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。...数据仓库的设计建模一般都依照三范式、星型模型、雪花模型,无论哪种设计思想,都应该最大化地涵盖关键业务数据,把运营环境中杂乱无序的数据结构统一成为合理的、关联的、分析型的新结构,而ETL则会依照模型的定义去提取数据源...ETL体系结构图 Design manager 提供一个图形化的映射环境,让开发者定义从源到目标的映射关系、转换、处理流程。设计过程的各对象的逻辑定义存储在一个元数据资料库中。...Meta data management 提供一个关于ETL设计和运行处理等相关定义、管理信息的元数据资料库。ETL引擎在运行时和其它应用都可参考此资料库中的元数据。

79410

美图离线ETL实践

ETL 有两种形式:实时流 ETL 和 离线 ETL。...美图目前仅使用实时流 ETL 进行数据注入和清洗的工作。 ? 图 2 根据 Lambda 结构,如果实时流 ETL 出现故障需要离线 ETL 进行修补。...离线 ETL 是从 Kafka拉取消息,经过 ETL 再从 HDFS 落地。为了提高实时性及减轻数据压力,离线 ETL 是每小时 05 分调度,清洗上一个小时的数据。.../ 离线 ETL 的架构设计及实现原理 / 离线 ETL 采用 MapReduce 框架处理清洗不同业务的数据,主要是采用了分而治之的思想,能够水平扩展数据清洗的能力; ?...图 4 如图 4 所示是离线 ETL 的基本工作流程: 1.kafka-etl 将业务数据清洗过程中的公共配置信息抽象成一个 etl schema ,代表各个业务不同的数据; 2.在 kafka-etl

1.3K00

Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项目的成功起着举足轻重的作用。...绝大多数Hadoop系统都运行在Linux之上,因此本片详细讨论两种Linux上定时自动执行ETL作业的方案。...为了演示Kettle对数据仓库的支持能力,我们的示例将使用Start作业项实现ETL执行自动化。...0 2 * * * /root/regular_etl.sh 这就可以了,需要用户做的就是如此简单,其它的事情交给cron系统服务去完成。...这种低耦合的设计方法让Oozie可以有效利用Hadoop的负载平衡、灾难恢复等机制。这些任务主要是串行执行的,只有文件系统动作例外,它是并行处理的。

5.8K53

etl 增量对比解决方案 etl-engine 如何实现增量对比

etl-engine增量对比节点 etl-engine 提供的增量对比节点实现了上述增量算法,只需要按配置要求进行相关配置,很容易实现增量对比效果并直接将差异数据入库到目标表(或转存差异数据),提高了开发人员及实施人员的工作效率...图片 增量对比场景1 图片 增量对比场景2 图片 参考资料 [免费下载](https://github.com/hw2499/etl-engine/releases) [etl-engine...使用手册](https://github.com/hw2499/etl-engine) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/...wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发](https://github.com/hw2499/etl-engine/wiki/%E5%B5%8C%E5%...85%A5%E8%84%9A%E6%9C%AC%E5%BC%80%E5%8F%91) [etl-engine配置样例](https://github.com/hw2499/etl-engine/wiki

768100

ETL(一):(详细步骤)使用ETL将源数据抽取到EDW层

1、ETL中4大常用客户端 R客户端主要用于创建文件夹,不同的项目主题,应该放在不同的文件夹中; 2、ETL开发流程 ①~③在D客户端中完成; ④和⑤在W客户端中完成; ⑥在M客户端中完成; 3、需求...; ③ 创建test1文件夹; 点击文件夹–>创建; 输入文件名,点击确定即可; 创建完成以后,就会出现如下所示的test1文件夹; 5、开发步骤如下 一个完整的ETL...开发需要依次经过如下几层:OTLP–>ODS–>EDW–>DW OLTP代表的是源数据层,因为数据的来源会不同,ETL支持好多中数据库中的数据,文件数据,这一层就是我们要处理的原始数据; ODS代表的是数据存储层...为了数据能够保持其原有状态,不损坏原始数据,我们相当于复制了一份数据放在了ODS层,该层数据才是用于我们做ETL开发的数据; EDW层是数据仓库层,用于存放我们进行数据转换、清洗过后的数据; DW层是数据集市层...### 7、关于ETL开发中,命名需要注意的地方。

85110

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券