首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

-数据仓库ETL开发

ETL开发 概述 ETL数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。...分层的作用: 1.划分ETL阶段工作重心,便于管理 2.降低开发和维护成本 3.减少需求变化带来的冲击 4.便于数据问题跟踪 名词解释: ODS——操作性数据 DW——数据仓库 DM——数据集市...STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。...抽取数据,STG层面向异构数据源,最好选择用ETL工具,一般ETL工具都支持多种数据源。STG层不做数据转换。...;最好在源头处理;必须在源头处理 数据规范化: 由于数据仓库的数据来源各个业务系统,每个业务系统相对都是封闭的,他们在命名、取值上都有自己的特点。

1.2K30

-数据仓库ETL开发

ETL开发 概述 ETL数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。 ?...分层的作用: 1.划分ETL阶段工作重心,便于管理 2.降低开发和维护成本 3.减少需求变化带来的冲击 4.便于数据问题跟踪 名词解释: ODS——操作性数据 DW——数据仓库 DM——数据集市 ?...STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。...抽取数据,STG层面向异构数据源,最好选择用ETL工具,一般ETL工具都支持多种数据源。STG层不做数据转换。...;必须在源头处理 数据规范化: 由于数据仓库的数据来源各个业务系统,每个业务系统相对都是封闭的,他们在命名、取值上都有自己的特点。

2.5K31
您找到你想要的搜索结果了吗?
是的
没有找到

数据仓库ETL实战

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。...名词解释: ODS——操作性数据 DW——数据仓库 DM——数据集市 ​一、数据抽取 数据抽取是指把ODS源数据抽取到DW中,然后处理成展示给相关人员查看的数据 源数据: 用户访问日志 自定义事件日志、...一般是把清洗好的数据加载到mysql中,然后在各系统中使用,或者使用Tableau直接给相关人员展示 四、ETL相关工具 ELT相关的工具有很多,这里只列举一些常用的,而且各公司的技术原型也不一样,就需要根据实际情况来选择...hive/tez pig/tez storm spark 其它工具 数据存储:hadoop、hbase,ES、redis 任务管理:azkaban、oozie 数据同步:datax、sqoop 五、ETL...所以元数据管理系统对于数据仓库来说是必须的,并且相关人员必须定时维护,如果元数据和数据仓库中的变动不同步,那么元数据系统就形同虚设。 这里说一句:对于元数据管理不应该是规范,应该是硬性规定。

1.4K50

ETL技能】白话数据仓库 ETL 搭建全过程

建立OLAP应用之前,我们要想办法把各个独立系统的数据抽取出来,经过一定的转换和过滤,存放到一个集中的地方,成为数据仓库。...这个抽取,转换,加载的过程叫ETL(Extract, Transform,Load).相应的开发工具Oracle有DataStage,微软有SQL Server Integration Services...这些ETL工具一般都支持图形化流程建模,文本文件映射导入,XML,XSLT,可执行SQL,javascript等。 数据建模 材料准备好后,我们要规划他们可以做出什么样的菜。...同样,有了表达逻辑关系的模型Cube,数据仓库中也导入了业务数据,我们还要告诉执行引擎如何取得我们真正所要的数据。...以上是建立OLAP应用的几个重要环节和相关技术,最后总结一下:用户需求——数据建模——数据仓库 用户需求决定了如何设计模型和数据仓库,数据模型又是描述数据仓库的逻辑关系,而数据模型和数据仓库的某些技术限制也可能影响用户需求的实现

2.4K101

数据仓库(四)之ETL开发

概述 ETL数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。...STG层是根据CDC策略把各个源系统的数据抽取到数据仓库中。STG层主要是面向批处理的形式,如果是根据日志信息实时同步,可以跳过STG层直接进入ODS层。...抽取数据,STG层面向异构数据源,最好选择用ETL工具,一般ETL工具都支持多种数据源。STG层不做数据转换。 加载数据,STG层一般保留7天或一月的数据。...2.制定数据质量测量类型 3.提交数据质量测量结果表,通常异常数据处理策略有 4.纠正数据 规范化 由于数据仓库的数据来源各个业务系统,每个业务系统相对都是封闭的,他们在命名、取值上都有自己的特点...2.选择代理键生成器 ETL工具和数据库都有设置字段自增长的功能。 3.选择维度表类型 根据业务系统的实际情况选择合适的维度表类型,一般采用缓慢变化维类型1和类型2。

2.9K30

ETL测试或数据仓库测试入门

概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。 什么是BI?...这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等 什么是数据仓库 数据仓库是为查询和分析而不是事务处理而设计的数据库。 数据仓库是通过整合不同的异构数据源而构建起来的。...什么是ETL ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。...该解决方案就是使用数据仓库应用统一的结构来存储经过ETL处理过的不同源的数据。 ETL能够转换不同结构/类型的数据集为统一的结构,以便后续使用BI工具生成有意义的分析和表报。...文本等类型数据分析) 业务转换逻辑实现 将经过转换的数据载入至目标表 其他有: 掌握ETL测试软件 ETL数据仓库测试组件 在后端执行数据驱动测试 创建、设计、执行测试用例、计划等 标识问题、提供问题解决方案

1.4K61

ETL测试或数据仓库测试入门

概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。 什么是BI?...这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等 什么是数据仓库 数据仓库是为查询和分析而不是事务处理而设计的数据库。 数据仓库是通过整合不同的异构数据源而构建起来的。...什么是ETL ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。...该解决方案就是使用数据仓库应用统一的结构来存储经过ETL处理过的不同源的数据。 ETL能够转换不同结构/类型的数据集为统一的结构,以便后续使用BI工具生成有意义的分析和表报。...文本等类型数据分析) 业务转换逻辑实现 将经过转换的数据载入至目标表 其他有: 掌握ETL测试软件 ETL数据仓库测试组件 在后端执行数据驱动测试 创建、设计、执行测试用例、计划等 标识问题、提供问题解决方案

1.6K61

ETL测试或数据仓库测试入门

概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。 什么是BI?...这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等 什么是数据仓库 数据仓库是为查询和分析而不是事务处理而设计的数据库。 数据仓库是通过整合不同的异构数据源而构建起来的。...什么是ETL ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。...该解决方案就是使用数据仓库应用统一的结构来存储经过ETL处理过的不同源的数据。 ETL能够转换不同结构/类型的数据集为统一的结构,以便后续使用BI工具生成有意义的分析和表报。...文本等类型数据分析) 业务转换逻辑实现 将经过转换的数据载入至目标表 其他有: 掌握ETL测试软件 ETL数据仓库测试组件 在后端执行数据驱动测试 创建、设计、执行测试用例、计划等 标识问题、提供问题解决方案

2.2K50

ETL测试或数据仓库测试入门

概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。 什么是BI?...这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等 什么是数据仓库 数据仓库是为查询和分析而不是事务处理而设计的数据库。 数据仓库是通过整合不同的异构数据源而构建起来的。...什么是ETL ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。...该解决方案就是使用数据仓库应用统一的结构来存储经过ETL处理过的不同源的数据。 ETL能够转换不同结构/类型的数据集为统一的结构,以便后续使用BI工具生成有意义的分析和表报。...) 业务转换逻辑实现 将经过转换的数据载入至目标表 其他有: 掌握ETL测试软件 ETL数据仓库测试组件 在后端执行数据驱动测试 创建、设计、执行测试用例、计划等 标识问题、提供问题解决方案 梳理业务需求和设计测试策略

1.4K50

HAWQ取代传统数仓实践(三)——初始ETL(Sqoop、HAWQ)

这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。...客户和产品的源数据直接与其数据仓库里的目标表,customer_dim和product_dim表相对应,而销售订单事务表是多个数据仓库表的数据源。...模式的表 analyze rds.customer; analyze rds.product; analyze rds.sales_order; -- 装载数据仓库数据 set search_path...用root操作系统用户建立初始ETL脚本文件~/init_etl.sh,内容如下: #!...将文件修改为可执行模式: chmod 755 ~/init_etl.sh 四、用root用户执行初始ETL脚本 ~/init_etl.sh         执行以下查询验证初始ETL结果: select

1.5K71

数据仓库建设之数仓架构

图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。ETL过程分成了抽取和转换装载两个部分。...抽取过程负责从操作型系统获取数据,该过程一般不做数据聚合和汇总,但是会按照主题进行集成,物理上是将操作型系统的数据全量或增量复制到数据仓库系统的RDS中。...RDS(RAW DATA STORES)是原始数据存储的意思。将原始数据保存到数据仓库里是个不错的想法。ETL过程的bug或系统中的其它错误是不可避免的,保留原始数据使得追踪并修改这些错误成为可能。...有时数据仓库的用户会有查询细节数据的需求,这些细节数据的粒度与操作型系统的相同。有了RDS,这种需求就很容易实现,用户可以查询RDS里的数据而不必影响业务系统的正常运行。...操作型系统也叫源系统,为数据仓库提供数据。 ETL过程:ETL过程从操作型系统抽取数据,然后将数据转换成一种标准形式,最终将转换后的数据装载到企业级数据仓库中。ETL是周期性运行的批处理过程。

1.1K30

OushuDB入门(四)——数仓架构篇

后面陆续进行初始ETL、定期ETL、调度ETL工作流自动执行、OLAP等实验。目的是演示以OushuDB代替传统数据仓库的具体实现过程。 一、业务场景 1....操作型系统的数据经过抽取、转换和装载(ETL)过程进入数据仓库系统。这里把ETL过程分成了抽取和转换装载两个部分。...自动化调度组件的作用是自动定期重复执行ETL过程。作为通用的需求,所有数据仓库系统都应该能够建立周期性自动执行的工作流作业。...每个OushuDB会话在任一时刻只能连接一个数据库,因此将RDS和TDS对象存放单独的数据库显然是不合适的。这里在dw库中创建了rds、td两个模式。后面ETL时我们将用Sqoop作为数据抽取工具。...这里使用两个个schema来划源数据存储和多维数据仓库的对象,不但逻辑上非常清晰,而且兼顾了ETL的处理速度。 3.

99210

基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)

这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个标准的双星型模式。...本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有的与销售关联的星型结构不同,新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表,用于存储数据仓库中的产品数据。 1....一个新的星型模式 下图显示了扩展后的数据仓库模式。 ? 模式中有三个星型结构。...SELECT last_load, ${hivevar:cur_date} FROM rds.cdc_time; 新建regular_etl_daily_production.sql.../regular_etl_daily_production.sh 再次查询factory_dim表,查询结果如下图所示。 ?

45610

数据仓库系列之ETL中常见的增量抽取方式

为了实现数据仓库中的更加高效的数据处理,今天和小黎子一起来探讨ETL系统中的增量抽取方式。...增量抽取是数据仓库ETL(数据的抽取(extraction)、转换(transformation)和装载(loading))实施过程中需要重点考虑的问题。...今天我们只重点对各种方法进行对比分析,从而总结各种机制的使用条件和优劣性,为数据仓库项目的ETL工程的实施提供增量抽取技术方案参考。 ?   ...在数据库仓库开发过程中,无论是全量抽取方案还是增量抽取方案,抽取数据的工作一般由数据仓库工具来完成。目前数据仓库开发工具非常多,比如SE-DWA,DTS,Kettle等等。...为了实现数据仓库中数据的高效抽取,增量抽取是ETL数据抽取过程中非常重要的一步,实现增量抽取的机制直接决定了数据仓库项目整体开发的效果。

2.7K10

数据仓库项目中的数据建模和ETL日志体系

数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和ETL日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的ETL...因此,个人建议在数据仓库建模的不同阶段,不同类型的数据仓库,采用不同的方法,因地制宜,从而保证整个数据仓库建模的质量。 ---- ETL日志体系 说到日志,相信大家都不陌生。...数据仓库平台需要利用这些日志进行自动化或者半自动化的处理,做到错误事前发现,打造无人值守的运维平台。 ETL日志的处理 该部分属于ETL级别日志,由ETL中的代码,根据需要生成。...错误明细表(ETL执行错误后会写入该表,错误级别分为警告和错误,警告数据进入数据仓库,错误数据不进入数据仓库): ?...日志驱动数据 该部分属于数据级别日志,日志驱动数据主要有两个方面的含义: 数据的完整性和一致性,在数据仓库ETL处理过程中,数据库是没有事务的,为了满足ETL的幂等性,我们必须在ETL中手动处理事务,

69610

基于Hadoop生态圈的数据仓库实践 —— ETL(一)

从源抽取数据导入数据仓库(本示例的RDS)有两种方式,可以从源把数据抓取出来(拉),也可以请求源把数据发送(推)到数据仓库。...考虑以下两个问题: 需要抽取哪部分源数据加载到数据仓库?有两种方式,完全抽取和变化数据捕获。 数据抽取的方向是什么?有两种方式,拉模式(从数据仓库去拉)和推模式(通过源去推)。...源数据表 数据仓库RDS表 抽取模式 customer customer 整体、拉取 product product 整体、拉取 sales_order sales_order 基于时间戳的CDC、拉取...而ETL通常是按一个固定的时间间隔,周期性定时执行的,因此对于整体拉取的方式而言,每次导入的数据需要覆盖上次导入的数据。Sqoop中提供了hive-overwrite参数实现覆盖导入。...设想这样的场景,一个销售订单的订单时间是2015年1月1日,实际插入表里的时间是2015年1月2日,ETL每天0点执行,抽取前一天的数据。

1.6K20
领券