基于元数据驱动的ETL

元数据的定义

元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙回顾|大数据

大数据 活动时间:2017年12月20日 斗鱼直播分享 活动介绍:TMQ在线沙龙第三十六期分享 ? 本次分享的主题:大数据。 共有65位测试小伙伴报名参加活动。...

20810
来自专栏GA小站

Google Tag Manager准备支持Adobe、Webtrekk等第三方代码

这是一篇在谷歌工作的数字营销专家放出来的文章,介绍了GTM将大力拓展第三方代码的支持。

973
来自专栏技术之路

重构学习-重构原则

什么是重构: 视上下文重构有两个不同的定义,第一个定义是名词形式 对软件内部结构的一种调整,目的是在不改变软件可观察行为的前提下,提高其可理解性,降低其修改成本...

1815
来自专栏魏艾斯博客www.vpsss.net

百度搜索资源平台(站长工具)抓取频次归零的解决过程

有朋友找老魏说自己网站的百度抓取频次归零了,自己对网站的操作没有变化,不知道百度这次为什么这么对待自己。魏艾斯博客也是第一次见到这种情形,琢磨了一下找到思路并开...

2043
来自专栏james大数据架构

该怎么向别人介绍你们的系统架构?

   如果有人让你介绍你们做的系统架构是什么样子的 你会从哪说起?   每个人都会有自己的架构认知,根据自己的接触的内容来总结。系统分为用户中心、营销中心、商品...

3526
来自专栏葡萄城控件技术团队

作为开发人员,这四类Code Review方法你都知道吗?

没有人能保证他产出的代码一定是完美的。下文阐述了4种主流的代码审查(code review)类型,相信作为专业的开发人员,你应该都了解它们!

851
来自专栏成猿之路

编程,听歌,找图片,看电影,找资源,一个网站可以让你减少10个软件的安装

872
来自专栏java一日一条

什么是2016年最值得学习的编程语言?

对于标题这个问题,如果你问我什么是2016年最值得学习的编程语言?我只能老老实实地回答:我也不知道,只能说适合自己的才是最值得学习的编程语言。因为我不知道你对那...

991
来自专栏wblearn

什么是2016年最值得学习的编程语言?

对于标题这个问题,如果你问我什么是2016年最值得学习的编程语言?我只能老老实实地回答:我也不知道,只能说适合自己的才是最值得学习的编程语言。因为我不知道你对那...

941
来自专栏ytkah

app开发学习需要经历哪些流程

  app开发学习需要经历哪些流程?如何零基础入门app开发?以下是知乎热心开发者的经验总结,对学习app开发有很好的参考意义 1.如果没有编程基础的,学习基础...

2723

扫码关注云+社区