前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >元数据概念

元数据概念

作者头像
大数据和云计算技术
发布2018-03-08 14:54:47
1.2K0
发布2018-03-08 14:54:47
举报

刘耀铭同学元数据系列作品的第一篇,大家支持!

其他元数据相关系列文章:

基于元数据驱动的ETL

Hive 元数据表结构详解

1、 元数据是描述其他数据的数据(data about other data),用于提供某种资源有关信息的结构化数据(structed data)。字面上看无法看出所以然,但其实看对应的英文含义就明确了,Meta指“对······的描述”类似Meta tag,所以元数据就是对数据的解释和描述。

2、 这里主要将数据仓库的元数据分为3类:DBMS数据字典、ETL处理流程产生的日志、BI建模等。

DBMS数据字典

  数据库管理系统(DBMS)中的元数据一般在所有的数据仓库都会包含,因为数据仓库一般都是基于数据库搭建的,而数据库本身的管理系统就会自动维护一套数据字典供用户查询。这些信息一般包括:

  • 数据库的关系模型,包含的对象及对象的描述;
  • 数据库的表结构、字段信息及描述;
  • 表和字段中的主外键、索引、约束等信息;
  • 各对象的存储位置和操作权限等。

ETL处理日志

ETL是数据仓库管理和维护的基础,就像是数据仓库的血液维系着整个数据的新陈代谢。我们需要时刻关注血液的循环是否正常,它是保证数据完整性、一致性、准确性和及时性的重要参考依据,所以我们需要记录ETL任务的处理日志。任务信息、调用的程序或脚本、前置任务;

  • 数据来源、加载目标、转化规则或计算公式;
  • 数据的刷新类型、刷新频率,任务调度信息;
  • 每次运行的起始时间、结束时间、操作记录数、任务状态及出错信息。

  记录ETL信息的方式有很多:一类是ETL基本信息与调度信息,另一类是ETL的每次运行日志。以文档或建数据库表的形式记录;

BI分析模型

  这里的BI分析模型主要有两类,一类是数据仓库常见的多维模型,另一类是根据具体业务构建的商业分析模型。大概有一下几类信息:

  • 分析模型的设计和结构;
  • 模型的分析应用和商业价值;
  • 模型中指标的定义、计算方法;
  • 模型的展现和效果;

3、 元数据使用的目的:识别资源,评价资源,追踪资源在使用中的变化,实现简单高效地管理大量网络化数据,实现数据资源化的有效发现,查找,一体化组织对使用资源的有效管理。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于元数据驱动的ETL
  • Hive 元数据表结构详解
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档