企业如何按需选择元数据管理工具?

转载本文需注明出处:微信公众号EAWorld,违者必究。

在各种数字化的影响下,将企业环境中的各种元数据整合利用至关重要。对于企业来说,选择适合自己的元数据管理工具将能最大化发挥元数据的作用,以协助企业完成在数据方面的战略目标。

企业中不同角色对元数据工具的期望可能有所不同,但这些期望基本都可以映射到元数据管理工具的十大能力上,当然这些能力背后少不了关键技术的支撑。

本文分为三部分,在第一部分,我们会先根据企业中的不同角色,列出不同角色对元数据管理的期望;然后在第二部分,总结在理想情况下元数据管理工具需要具备的十大能力,并将这些能力与不同的角色做关联,以便不同企业可以根据自身情况选择合适的元数据管理工具;最后在第三部分,将给出几种现阶段实现元数据管理的关键技术。

目录:

一、不同角色对元数据管理的期望不同

二、如何选择适合自己的元数据工具?

三、元数据管理的关键技术?

四、总结

一、不同角色对元数据管理的

期望不同

为了站在不同角色的角度回答这个问题,我们先把企业中与元数据管理项目相关的几种角色列一列,这里暂且将这些角色分为企业高管、数据开发人员、数据分析人员、数据管理人员、运维人员、其他业务用户几种。

图 1:与元数据管理相关的角色

企业高管:在数据越来越重要的形势下,高管们比较关心的是企业的整个数据全貌以及数据在全企业中的使用状况(或者可以说是更注重数据资产与应用层面),但是没有一个人能直接告诉领导企业中的数据是什么样,具体的使用流通情况是什么,有效的元数据管理能很好地回答企业高管的这些问题。

数据开发人员:对于数据开发来说,最常见的问题就是大量的重复工作:明明已经有了一模一样的接口或者脚本,但是因为是别人写的,没有统一标识并管理起来,所以根本就找不到,即使找到了可能也会因为缺少相关的解释说明,根本无法重复利用,降低数据开发效率的同时也造成了大量的冗余。元数据管理能方便数据开发人员查找想重复利用的信息,而解释说明恰好可以通过业务元数据管理来实现。

数据分析人员:数据分析人员通常需要通过较高级的数据统计分析实现公司与战略决策、业务或考核相关的目标。对于他们来说,错综复杂的数据关系、参差不齐的数据质量和业务元数据的缺失是主要问题。元数据管理降低了这些信息的获取门槛,也为数据质量的问题追溯提供了支持。

数据管理人员:数据管理人员通常需要负责数据从设计、测试到部署交付的全生命周期管理。对于他们来说,通常需要管理各种版本的数据信息,并管理企业数据的生命周期,如何控制各状态下数据的协调一致和及时判断数据处于什么周期需要做什么操作是目前急需解决的问题。这可以通过管理企业元数据来实现。

运维人员:对于运维人员来说,需要时刻保证系统的稳定性,尤其是当企业模型发生变更时,要不断判断变更带来的影响,显然人工判断的方式在准确性和实时性上都很难保证,而且对运维人员的业务能力要求较高,很大程度上增加了系统风险。通过元数据管理,当系统变更时,可以根据已经获取到的系统、表等对象间关系自动分析出变更带来的影响,用自动化的方式降低维护成本,提升用户体验。

其他业务人员:由于业务人员对业务规则、业务流程比较熟悉,通常不需要对技术细节有很深入的了解,技术门槛往往导致业务人员获取和理解数据难,因为不了解数据存储情况,也很难技术沟通业务需求,往往最终难到手的数据也不是自己想要的,难以匹配业务的快速发展。

二、如何选择适合自己的

元数据工具?

通过以上可以看出,不同用户对元数据管理工具寄予着不同的期望(见图2)

图 2 :不同用户对元数据管理工具寄予着不同的期望

企业开展元数据管理项目可能需要解决的是其中一类用户或者其中几类用户的问题,我们先列出一些元数据管理工具的基本能力,然后再将这些能力与上文中的期望对应起来,企业可以通过参考二者之间的对应关系,来指向性地选择适合自己的元数据管理工具。

通过大量元数据项目的实践,我总结出了在理想情况下,元数据管理工具需要具备的十种能力,如下:

图 3:元数据管理工具的十种能力

  • 元数据采集能力

从错综复杂的企业环境中自动实时解析和采集各种元数据的能力,为应对各种数据环境,这个环节通常需要使用各种技术和语法来支持大数据平台、关系型数据库、第三方工具、存储过程、脚本、文本文件、表格文件的自动化采集。

  • 元数据存储能力

将采集过来的元数据进行统一存储的能力,为支持各种元数据以及元数据之间关系的存储,元数据存储需要灵活可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。

  • 元数据查找能力

提供统一的端口对元数据进行查找的能力,完善的元数据管理工具应该能支持按照企业的各种分类方法来对元数据进行查找(有一部分分类方式蕴含在元数据本身中,需要通过对元数据进行分析之后获得)。比如你可能会按照系统、表、指标、接口等不同维度查找信息,甚至会根据自己的查找习惯新建一个完全不同的类别。

  • 血缘分析/关系分析能力

分析数据的来源和数据的流向,揭示数据的上下游关系,在元数据管理工具中分析、描述并可视化其中的细节,方便用户对关键信息进行跟踪。完善的血缘分析需要是横向(当前)和纵向(历史)双向可用的,以方便对同一时期不同对象的分析和不同时期同一对象的变化。

  • 基于角色的访问控制和分层

元数据的增删改等权限的控制是元数据管理工具中需要特别注意的地方,工具中应该支持访问权限的控制。比如,数据管理员具有所有权限,开发人员可能更关注开发环境、测试环境元数据,而企业管理者可能只关注生产环境的元数据情况,总经理级别的用户可以访问企业多种环境下的元数据,而部门负责人可能只关注与本部门相关的元数据。

  • 业务元数据管理能力

采集企业环境中的业务元数据,并完成业务元数据与技术元数据的映射,为元数据赋予业务属性,这也是发挥元数据管理工具业务价值的一个关键。

图 4:技术元数据与业务元数据的对应

  • 元数据变更控制能力

当元数据需要变更时,提供变更审核能力,明确元数据版本,保存元数据的历史状态,在发生任何问题时可以自动恢复到之前的版本。在某个元数据项发生变更时,可能还需要对该次变更将要产生的影响进行分析和评估。

  • 元数据对比分析能力

对不同环境中的元数据进行对比分析,分析其中的异同,必要时还能根据分析结果产出相应的分析报告。

  • 数据生命周期管理能力

在理想状态下,元数据管理工具应该保留数据从创建、存储,到过时被删除/备份等各种状态下的元数据,从而管理数据在整个生命周期中的流动。作为一项规则,较新的数据和那些很可能被更加频繁访问的数据,应该存储在容易被访问的位置,而那些不是很重要的数据则可以备份存储在比较便宜的,稍微慢些的媒介上。

图 5:数据生命周期

  • 与其他系统的集成能力

要想让元数据管理系统发挥业务价值,还有非常重要的一点就是元数据管理工具与其他系统的集成能力。

这些能力与刚开始提出的几种需求之间的对应关系整理如下(鉴于元数据采集与元数据存储是几乎每种需求都需要的基本能力,所以我把这两项单独拿出来不参与对应),企业可根据对应关系来选择元数据管理工具:

图 6:角色与十大能力的对应关系

三、元数据管理的关键技术?

一般来说,元数据管理项目需要用到众多技术,在这里讲四种:高度灵活可扩展的架构、角色访问控制和分层、业务元数据与技术元数据对应、与其他系统的集成。

图 7:元数据管理的关键技术

  • 高度灵活可扩展的架构

企业数据环境中的数据杂乱,形态多样,标准不一,若要实现所有元数据的有效采集或者自动化采集和存储,必须有高度灵活可扩展的架构支撑,也意味着元数据的架构要能和企业的各种模型进行“交流”,这在之前王轩的文章《大数据治理技术核心,可扩展的元数据架构设计》中提及到了具体方法,在这里不再多说。

  • 角色访问控制和分层

如上文所述,企业元数据管理涉及到很多不同的人员,优秀的元数据管理工具应该做好角色访问控制,具体实现方法可以归结为两种:

1、在平台汇总建立角色分层机制/角色组,将企业中的不同角色按照具体需求分类到不同的角色组中,对不同角色组展示不同的功能。

2、在工具内部建立角色与功能之间的映射,并且支持根据企业情况进行灵活配置(毕竟各企业的角色和所对应的功能不尽相同),根据映射对不同角色展示不同的功能。

  • 业务元数据与技术元数据的对应

这是企业从数据管理向知识管理转变的关键,关于业务元数据与技术元数据的对应,可以参考我们之前写过的文章。另外我认为除了领域本体构建,编织模型(Weaving Model,V. Stefanov提出)未来也可能会成为对应二者之间关系的一种技术,这种方式通过编织模型来存储和管理企业不同模型之间的关系,例如,通过建立星型模型/雪花型模型与业务流程模型、企业组织架构等之间的关系,可以自动获取到数据所对应的业务信息和管理者信息等。

  • 与其他系统的集成

随着各种数据政策的出台,元数据成为企业各种流程中不可或缺的重要部分,人们对元数据驱动的呼声越来越高,而要实现元数据驱动,除了元数据分类和模型的标准化,元数据管理工具是否与企业的其他系统(比如,CRM、ERP、SCM、OA等系统,还有同与数据管理相关的数据标准系统、数据质量系统)集成,为其他系统提供元数据服务,是主要的关键点。一种方法是向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;另一种方法是将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。

图 8:元数据管理的需求-能力-技术模型

不同的企业对元数据管理有不同的需求,企业要选择最适合自身情况的元数据管理工具。本文给出了基于角色的元数据管理需求,以及这些需求与元数据管理十大能力之间的映射关系,这种映射关系可以帮助企业选择具有特定能力的元数据管理工具,在最后,对几种支撑这些能力关键技术做出了解释。

参考文献:

1.王轩. 大数据治理技术核心,可扩展的元数据架构设计[EB/OL]. http://www.cbdio.com/BigData/2016-07/12/content_5076844.htm.

2.V Stefanov. Explaining Data Warehouse Data to Business Users.[EB/OL]. http://aisel.aisnet.org/cgi/viewcontent.cgi?article=1070&context=ecis2007.

3.KM, Hüner. Collaborative management of business metadata[EB/OL]. https://www.sciencedirect.com/science/article/pii/S0268401210001817.

关于作者:龚菲,现任普元数据治理团队产品工程师,3年数据治理经验,负责国内外数据治理趋势研究、普元数据治理产品研究与推广,掌握国内外数据治理产品的发展趋势,编写了一系列数据治理文章。先后参与了华夏人寿、海通证券、东方航空等数据项目,尤其是对元数据相关理论与业界产品有深入了解,擅长业务元数据管理、本体构建等元数据相关领域知识。

原文发布于微信公众号 - EAWorld(eaworld)

原文发表时间:2018-04-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

刚刚!张小龙再出重磅!微信小程序掀起新零售红利狂潮!

小程序并不小 2017年的1月9日,微信推出的小程序,当时提出的目的主要是:线下可扫码、可对话和分享、支持消息通知、小程序间切换、小程序打开历史记录、公众号绑定...

2108
来自专栏Forrest随想录

谈谈技术和成本(三)

接上篇文章,我们讲了技术不是唯一的解决成本问题的手段,但这不代表技术就没有意义,没有价值,相反,到了一定阶段之后,技术将成为最终的决定因素。

784
来自专栏SDNLAB

边缘计算扩展IoT网络的三种方式

目前的网络中已经有64亿台设备连接,此外还新增了550万台新设备,因此物联网的兴起需要采用新的处理和分析需求的方法。充分利用物联网需要在设备和云之间实现强大的无...

33310
来自专栏云计算D1net

私有云和混合云仍将持续发展

当私有云和混合云技术首次出现时,一些权威人士预测,他们的应用不会持续太长时间,因为企业都将转向采用公共云。然而,他们最后都错了…想知道为什么吗? 以下有几个很好...

2555
来自专栏DevOps时代的专栏

持续交付与传统敏捷的矛盾

我在采用持续交付的组织中和开发团队工作一起工作,发现很多开发者认为的正确的敏捷团队的工作方式,在这里跑得不是很顺畅。我认为传统敏捷与持续交付的矛盾的根本在于,二...

1433
来自专栏云计算D1net

多云的好处:使用多云的9个理由

调研机构RightScale公司发布的2018年的云状态报告表明,96%的企业已经采用了云计算,81%的企业正在实施多云战略。平均而言,每个企业采用4.8个不同...

1264
来自专栏程序员互动联盟

【答疑解惑第三十三讲】大数据和云计算有啥关系?

疑惑一 大数据与云计算有何关系? 大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 大数据的4V特点:Vo...

4317
来自专栏腾讯研究院的专栏

盘点大数据分析领域五大趋势

  目前,大数据分析是一个非常热门的行业,一夜间,似乎企业的数据已经价值连城。企业都在开始尝试利用大数据来增强自己的企业业务竞争力,但是对于大数据分析行业来说...

2245
来自专栏SDNLAB

电信云保障之旅

随着通信服务提供商(CSP)正在谋求数字化转型,在云环境中运行其业务,销售数字服务和像网络级互联网公司一样运营,以确保电信云环境和业务流程的高度优先性。随着网络...

34410
来自专栏about云

大数据架构和模式(二)如何知道一个大数据解决方案是否适合您的组织

问题导读 1.如何判断大数据问题是否需要大数据解决方案? 2.如何评估大数据解决方案的可行性? 3.可通过大数据技术获取何种洞察? 4.是否所有大数据都存在大...

3487

扫码关注云+社区

领取腾讯云代金券