元数据管理包括元数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但元数据管理实践过程中通常会面临元数据来源众多且分散在不同系统中、元数据类型多样以及元数据频繁变更等问题。因此构建一个基于统一标准规范实现的,通用可扩展的元数据管理体系是至关重要。
统一元数据:实现异构数据源统一、标准统一、系统运管统一,整合元数据在线数据目录和离线治理分析功能。更泛化理解,如图展示腾讯云数据湖的统一元数据架构:支持在线数据目录和离线数据治理的统一
元数据类型按照使用领域与功能可以分为:技术元数据、业务元数据、操作元数据、管理元数据
MOF元模型标准指的是“元对象设施”(Meta-Object Facility,简称MOF)标准,由对象管理组织(Object Management Group,简称OMG)制定。作为模型的基础描述规范,可以描述不同类型的模型标准,为不同类型的模型管理建立基础。
常规的元数据管理流程可分为如下5个步骤:元模型定义、元数据采集、元数据加工、元数据存储、元数据应用。
基于MOF标准,元模型是对元数据的抽象描述,用于定义和组织元数据的结构、类型和关系。元模型为描述数据资产的元数据提供了一组规则和标准,确保元数据的一致性、可理解性和可交互性。例如, Hive Metastore底层库表的定义即为元模型,DBS为描述db的元模型,TBLS为描述tables的元模型。
元模型定义主要包括:分组、模型、属性、数据类型等关键要素。分组从逻辑上聚类不同的模型集合,例如Hive元模型、MySQL元模型 可以划分在关系型元模型分组。模型定义元数据对象结构,由模型属性以及模型间关系组成。
元数据采集主要包括:接入、适配、入库三个阶段:
按照元数据采集的接入方式,可分为:
采集接入方式应动态适配相应的接口适配器,适配器支持以插件方式扩展不同的数据源类型和元数据类型。
元数据入库的主要流程包括:
元数据加工:在入库之前、对原始元数据进行转换(Transform)的过程,以便满足元数据管理和维护的需求。元数据加工需满足以下原则:完整性、准确性、客观性、可扩展性。常见的加工转换操作有:
统一数据ID加工:元数据系统内部应生成唯一的数据ID,与原始平台的数据ID形成一对一的映射关系,便于元数据进行全流程追溯和适配不同平台。
由于元数据结构和使用场景的不同,通常需使用不同类型的存储系统,根据元数据结构可分为以下类别:
不同结构类型的元数据对存储系统的要求存在差异,需要适配不同的存储系统,存储元数据的数据库应满足要求:
元数据应用指能够利用元数据发现数据之间的关联性,助力数据治理,避免避免大量低质量的数据汇聚而导致“数据沼泽”,统一元数据提供的应用能力体系可分为:
元数据管理是数据治理的基础和核心,为避免数据孤岛,企业内部通常会搭建统一元数据平台,将元数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。本文通过背景介绍、元数据类型、元数据标准、元数据管理流程从理论上介绍统一元数据管理,后续将针对各个流程子项进行详细说明。
更多详情可参考:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。