元数据概念

刘耀铭同学元数据系列作品的第一篇,大家支持!

其他元数据相关系列文章:

基于元数据驱动的ETL

Hive 元数据表结构详解

1、 元数据是描述其他数据的数据(data about other data),用于提供某种资源有关信息的结构化数据(structed data)。字面上看无法看出所以然,但其实看对应的英文含义就明确了,Meta指“对······的描述”类似Meta tag,所以元数据就是对数据的解释和描述。

2、 这里主要将数据仓库的元数据分为3类:DBMS数据字典、ETL处理流程产生的日志、BI建模等。

DBMS数据字典

  数据库管理系统(DBMS)中的元数据一般在所有的数据仓库都会包含,因为数据仓库一般都是基于数据库搭建的,而数据库本身的管理系统就会自动维护一套数据字典供用户查询。这些信息一般包括:

  • 数据库的关系模型,包含的对象及对象的描述;
  • 数据库的表结构、字段信息及描述;
  • 表和字段中的主外键、索引、约束等信息;
  • 各对象的存储位置和操作权限等。

ETL处理日志

ETL是数据仓库管理和维护的基础,就像是数据仓库的血液维系着整个数据的新陈代谢。我们需要时刻关注血液的循环是否正常,它是保证数据完整性、一致性、准确性和及时性的重要参考依据,所以我们需要记录ETL任务的处理日志。任务信息、调用的程序或脚本、前置任务;

  • 数据来源、加载目标、转化规则或计算公式;
  • 数据的刷新类型、刷新频率,任务调度信息;
  • 每次运行的起始时间、结束时间、操作记录数、任务状态及出错信息。

  记录ETL信息的方式有很多:一类是ETL基本信息与调度信息,另一类是ETL的每次运行日志。以文档或建数据库表的形式记录;

BI分析模型

  这里的BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。大概有一下几类信息:

  • 分析模型的设计和结构;
  • 模型的分析应用和商业价值;
  • 模型中指标的定义、计算方法;
  • 模型的展现和效果;

3、 元数据使用的目的:识别资源,评价资源,追踪资源在使用中的变化,实现简单高效地管理大量网络化数据,实现数据资源化的有效发现,查找,一体化组织对使用资源的有效管理。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-11-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏EAWorld

当持续集成遇上微服务:分治优于集中

大师Martin Fowler对“持续集成”是这样定义的:持续集成是一种软件开发实践,即团队开发成员经常集成他们的工作,通常每个成员每天至少集成一次,也就意味着...

32350
来自专栏安智客

Frequently Asked Questions on seL4

形式化验证是近年来安全操作系统发展的热门!seL4在其官网上打出的口号就是:安全不是表现不佳的借口!

21350
来自专栏AI科技大本营的专栏

从15000个Python开源项目中精选的Top30,Github平均star为3707,赶紧收藏!

翻译 | AI科技大本营(ID:rgznai100) 参与 | SuiSui 继推出2017年机器学习开源项目Top 30榜单后,Mybridge AI又推出了...

46260
来自专栏优启梦

分析网站关键词排名下降的五种原因!

  网站长时间的运营就会产生一些怠慢、疏忽的情况发生,当我们疏忽或者怠慢的时候,无孔不入的“苍蝇”就会盯住我们的网站,会让我们的网站关键词排名突然下降,这个时...

44370
来自专栏成猿之路

100种电脑小工具,你值得拥有。

19630
来自专栏大数据文摘

如何在云计算平台使用R语言编程的快速入门指南

52070
来自专栏数据小魔方

ggplot2又添新神器——ggthemr助你制作惊艳美图

今天在浏览ggplot扩展插件目录的时候,又发现了一款神器——ggthemr。 这是继ggplot的ggtheme包、RColorBrewer包之后(不算ggt...

36350
来自专栏灯塔大数据

热点 | 年度重大更新:PyTorch0.4官方支持Windows,完全改变API

昨天,PyTorch 官方 GitHub 发布 0.4.0 版本,大家心心念念的 Windows 支持终于到来!加入到深度学习的行列中来吧!

13620
来自专栏腾讯大数据的专栏

百亿级实时消息推送的实战之道,与王者荣耀一趟车就是这么稳!

腾讯移动推送(信鸽)高级工程师甘恒通在本场架构师峰会上分享了《腾讯移动推送(信鸽)百亿级实时消息推送的实战经验》,解析了信鸽实时精准推送系统的演进与实践。

1.4K30
来自专栏腾讯Bugly的专栏

《广研Android卡顿监控系统》

实现背景 应用的使用流畅度,是衡量用户体验的重要标准之一。Android 由于机型配置和系统的不同,项目复杂App场景丰富,代码多人参与迭代历史较久,代码可能会...

1.2K40

扫码关注云+社区

领取腾讯云代金券