基于元数据驱动的ETL

元数据的定义

元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

为什么这么多人学不会C语言?

应该准确来讲,是为什么这么多人学不会编程,C语言本身来讲有一定的难度,但毕竟不是最难的语言,所以学不好的主要还是自身的问题。作为用了十几年C语言的程序员在这尝试...

2754
来自专栏诸葛青云的专栏

系统学习C语言方法大全

很多人对学习C语言感到无从下手,经常问我同一个问题:究竟怎样学习C语言?我是一个高级编程师,已经开发了很多年的程序,和很多刚刚起步的人一样,学习的第一个计算机语...

30
来自专栏编程

C语言嵌入式系统编程修炼之屏幕操作

这是我13年前创作和发表在互联网上的文章,这么多年过去了,这篇文章仍然在到处传播。现在贴回Linuxer公众号。 全文目录: C语言嵌入式系统编程修炼之道——背...

1808
来自专栏web前端教室

【不理解】学习前端开发的路上,你是自己绊倒了自己吗?

讲课对于我来讲,是以一种半双向的形式,在和学生们做实时的交流。为什么说是半双向呢?

853
来自专栏web前端教室

前后端的“互不信任” -- 购物车之类涉及到钱财方面的数字计算

今天喝酒去了,刚回来,文章较短哈。 标题的意思就是说, 在购物之类涉及到真实钱财的计算之中, 前端不参与数字的计算。 因为前端的js不安全,js它是不保密的。...

1936
来自专栏PPV课数据科学社区

是学习Java还是Python?一张图告诉你!

Java 和 Python 一直都是两种很火很强大的编程语言,对于刚开始起步学习编程的同学来说,会迷惑且最经常问的问题是,我该学 Java 还是 Python,...

3407
来自专栏AI科技大本营的专栏

学Java还是Python?一张图告诉你!

Java 和 Python 一直都是两种很火很强大的编程语言,对于刚开始起步学习编程的同学来说,会迷惑且最经常问的问题是,我该学 Java 还是 Python,...

3437
来自专栏数据小魔方

R语言学习笔记之——多进程与并行处理包parallel

上一篇中,主要介绍了使用foreach包来在R语言环境中实现任务的并行处理,其实在R语言中还有另外一个多进程包同样可以完成多进程任务,那就是parallel包,...

2848
来自专栏钱曙光的专栏

一周极客热文:每个程序员都必读的10篇文章

图:海外程序员的杂乱双屏桌面 本周热门文章是《每个程序员都必读的10篇文章》,超百条的评论,看出程序员们都是很爱看书,这十本书为: 《程序员必知之内存篇》——带...

1839
来自专栏大数据钻研

为什么我们的web前端变的越来越复杂

前端发展了也有些年头了,曾记得很多年前,聊起前端,都觉得是很简单,那个时候都没有前端工程师这个职位。可现在,前端已经逆袭了,已经不是原来的样子了,各种技术层出不...

3156

扫描关注云+社区