元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据
— 01 —
企业数据治理的现状与问题
企业架构理论体系中,数据架构始终是企业架构的核心组成部分。TOGAF企业架构框架定义了数据架构位于业务架构与基础技术架构之间,通过数据架构的治理实现的业务和应用的有效衔接。
数据架构基线
数据架构关系
数据管理
企业数据资产管理的常见问题
问题集中于系统变更频繁、积木式迭代、烟囱式建设:
一、企业的IT系统经历了数据量高速膨胀的时期,但大多数据企业最初没有对数据架构重视,导致企业海量的、分散在不同角落,企业无法从统一的业务视角去概览整个企业内部的数据信息。暴露出来的只是一个个独立的系统,系统与系统之间的关系、标准数据从哪里获取都无从知晓。
二、传统企业的数据资产问题归根到底是由于企业中对企业数据缺少统一而有力的组织、制度、流程的管控,引起的“数据孤岛”问题。
— 02 —
企业数据运营的常见问题
企业数据运营中经常遇到的各种各样问题,如下图:
这些问题,或许元数据管理能够帮助到您!
— 03 —
元数据管理对数据运营的重要性
元数据管理是数据治理工作是重重之重,为什么企业内部的数据质量总是不高?其实只要有数据存在就有数据质量问题存在。但是也可以通过一个有效的管理流程来提高企业数据质量,其中最核心的核心就是元数据的管理。
元数据是企业中用来描述数据的数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的所属域、取值范围、数据间的关系、业务规则,甚至是数据的来源。在数据分析中,元数据可以帮助DW管理员和DW开发人员非常方便地找到他们所关心的数据。
元数据提供企业数据DNA
— 04 —
元数据管理范围和目标
一般而言,就数据仓库或者大数据平台中的元数据可以按不同的维度分为技术元数据、业务元数据、操作元数据等,元数据管理的范围大致如下三个方面:
元数据源:元数据源数据仓库和数据平台中的数据实体定义和结构信息。 数据接口:生产系统和操作型系统中采集到数据仓库或者数据平台中的各种数据接口信息。
报表展现(BI):报表展现的相关指标和统计口径。
数据集成(ETL):数据汇总、处理和分析的数据集成相关信息。
元数据管理目标
— 05 —
元数据管理系统
元数据系统整体分为接收层,服务层,存储层和应用层。左右两侧分别是主要接入方和应用方,接入方主要包括了大数据引擎、管理工具、开发平台及工具,应用方主要包括数据地图、开发平台、治理平台等。
基于元数据系统的数据资产搜索能力对各类数据建立数据索引,方便搜索引擎快速找到这些数据,同时搜索引擎提供了根据相关性、元信息完善度、依赖数量、运营规则进行智能排序,帮助用户用户快速找到所需数据。
在这个过程中,用户的点击率、负反馈率等操作行为数据反馈给搜索引擎,利用这些用户行为数据,可以优化搜索索引和排序规则。
元数据系统提供了全链路血缘功能,提供实时血缘查询能力,解决数据来源不容易确定、难以评估数据变动造成的影响等问题。元数据中的血缘关系在数据生产加工、数据治理中也有广泛的应用场景。
下图是通过一个简单的例子介绍血缘是如何构建起来的。主要会使用到元数据中表示关系的属性,例如输入、输出、绑定、关联等。
除了上面应用场景外,元数据还有以下应用场景:
— 06 —
元数据给企业带来的收益
元数据管理能够增强数据理解,可以架起企业内业务与IT部门之间的一座桥梁,无论是企业的业务部门还是IT部门,很少能完整的拿出一套企业各项数据的业务含义、口径、技术标准、分布情况等的说明,使用元数据管理可以自动化的获取整个企业的数据业务含义,帮助理解数据,增加分析的敏捷性。使用元数据管理系统能够方便内部管理、审计或外部监管的需求追溯业务指标、报表的数据来源和加工过程,追述数据的来源;同时还可以针对企业内部、外部的数据需求,快速建立业务与技术之间的衔接,敏捷应对企业用数需求。