基于元数据驱动的ETL

元数据的定义

元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏挖掘大数据

干货!非结构化数据分析的10个步骤

如今,数据分析正在成为企业发展过程中的重要组成部分。企业必须对结构化和非结构化数据有所了解,才能更好地为业务发展做出正确决策。本文将详细介绍企业分析非结构化数据...

2150
来自专栏java一日一条

什么是2016年最值得学习的编程语言?

对于标题这个问题,如果你问我什么是2016年最值得学习的编程语言?我只能老老实实地回答:我也不知道,只能说适合自己的才是最值得学习的编程语言。因为我不知道你对那...

831
来自专栏wblearn

什么是2016年最值得学习的编程语言?

对于标题这个问题,如果你问我什么是2016年最值得学习的编程语言?我只能老老实实地回答:我也不知道,只能说适合自己的才是最值得学习的编程语言。因为我不知道你对那...

831
来自专栏Flutter入门到实战

成为高级开发工程师必备技术能力

熟悉所使用的语言的语法特性,知道如何用一两行代码代替初级开发者十几行甚至上百行代码。

1192
来自专栏技术之路

重构学习-重构原则

什么是重构: 视上下文重构有两个不同的定义,第一个定义是名词形式 对软件内部结构的一种调整,目的是在不改变软件可观察行为的前提下,提高其可理解性,降低其修改成本...

1775
来自专栏程序员互动联盟

【编程基础第六讲】需要掌握什么知识才能做项目?

存在问题: 什么是做项目?因为大家学习的时候都是有人指导,又书可循,但项目是加上的时间以及一些不确定因数的集合,我们真正做项目要知道些什么呢? 解决方案: 常常...

3406
来自专栏PPV课数据科学社区

【报告】京东电商大数据实践

温馨提示:多图,建议在wifi环境下阅读 京东大数据平台从无到有,从集中式到分布式,从Oracle数据仓库到JDW2.0,在演变过程中一直在思考的两个问题:1、...

3276
来自专栏PPV课数据科学社区

5种最流行的AI编程语言

导读:有没有兴趣来了解更多与AI开发有关的内容? 本文将介绍创建AI程序时可以使用的5种最佳语言。 Python ? Python语法简单,功能多样,是开发人...

3998
来自专栏成猿之路

编程,听歌,找图片,看电影,找资源,一个网站可以让你减少10个软件的安装

832
来自专栏魏艾斯博客www.vpsss.net

百度搜索资源平台(站长工具)抓取频次归零的解决过程

有朋友找老魏说自己网站的百度抓取频次归零了,自己对网站的操作没有变化,不知道百度这次为什么这么对待自己。魏艾斯博客也是第一次见到这种情形,琢磨了一下找到思路并开...

1153

扫码关注云+社区