首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是ETL

ETL是一种数据集成,指的是用于混合来自多个源的数据的三个步骤(提取,转换,加载)。它通常用于构建数据仓库。在此过程中,从源系统获取(提取)数据,将其转换(转换)为可以分析的格式,并将其存储(加载)到数据仓库或其他系统中。提取,加载,转换(ELT)是一种替代但相关的方法,旨在将处理推送到数据库以提高性能。

一、 数据的抽取(Extract)

这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。

抽取方式分为全量抽取和增量抽取。全量抽取类似于数据迁移和数据复制。增量抽取一定要考虑增量标志,利用触发器,时间戳,日志对比判断增量的记录。

二、数据的清洗转换(Transform)

由于业务或者历史原因导致了一些不完整的数据、错误的数据、重复的数据。数据清洗就是把这些数据补全,剔除。数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。这一部分是ETL最耗时的部分,需要反复的判断,校验,业务人员确认,确保数据的完整性,准确性。

三、数据装载(Load)

将转换和加工后的数据装载到目的库中通常是ETL过程的最后步骤。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190220G0DVVI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券