微服务架构下的数据治理

大家好: 今天我带来的题目是微服务架构下的数据治理。

之前在群(注:普元云架构设计群)中分享过“微服务与元数据”的概念(注:详见【超详解PPT】元数据驱动的微服务架构(上)【超详解PPT】元数据驱动的微服务架构(下),本次再来扩大一下咱们的视野,看一下数据治理议题。

大家看到这个题目的名字就知道,今天的分享主题是数据领域应用的方向,是一个全行业的数据领域问题,不再聚焦于一个产品或一个技术的应用。

今天分享的议题包括三个:

1.微服务架构需要高质量的数据

2.如何做好微服务下的数据治理

3.各行各业数据治理的最佳实践

咱们先看第一个部分:“微服务架构需要高质量数据”。

之前咱们讲过很多微服务架构,然而大数据微服务的架构现阶段肯定是需要有大量数据支撑,现阶段很多是建立的大数据的平台上,大数据就需要有高质量的数据。

EMC在大数据时代提出“数据湖”的概念就很形象,大数据时代没有高质量的数据,湖泊就会变成数字沼泽,深陷其中,有再多的数据也难发挥价值。

那么如何让企业的大数据“湖水”保持清澈,我们就需要做大数据的数据的治理。

面对微服务与大数据,传统架构的数据治理体系有一定具局限性,主要表现在三方面。

1.传统架构的数据治理应用范围过窄,只是针对某个系统的应用,没有从数据的源头,数据交换,共享,分析全方位去考虑。

2.数据治理难以落地,数据治理往往是咨询先行,需要有详细的数据规划方案与解决方案,制定企业统一的数据标准框架,但是到了落地到系统中,有再好的规划与标准,在落地环节由于管理不统一,往往很难找到与企业现有数据中哪个数据库,表的对应关系。

3.每个行业特点不同,IT发展水平也不同,数据治理需要针对不同行业特点定制,而不能够照搬。

我们来看第二部分,如何做好微服务架构下的数据治理。

如何开展数据治理,有一个前提条件就是给每个企业的数据架构发展定位,处于哪个发展阶段,每个阶段需要有不同的流程与技术支撑。

1. 从人员组织从低到高可分为:临时人员或无人员,兼职,有固定专职人员分工细化,专职组织常态化等。

2. 流程制度可分为:项目方式的临时流程,部门内固化流程,跨部门的固化流程,优化的企业级管理流程等。

3. 技术支撑可分为:分为数据分散存储、文档,系统内数据管理,数据仓库,大数据平台与数据治理平台等。

我们来看一旦我们开始数据治理的事情我们会从几方面入手:包括战略发展,政策,体系架构,数据治理流程技术与架构等等。

做数据治理往往要跟企业的每个部门数据打交道,而不是传统业务应用划分,但是同时还需要理解每个部门的数据业务。

所以企业中一般是由科技IT这边牵头组建一个委员会,但是由于科技对业务了解程度不深,还要从业务部门抽调业务专家组成专业化的团队。

说到数据管控与工具,在海量大数据时代,要想做好数据的治理与管控。需要从数据全生命周期去考虑与分析。

从产生数据的业务需求,到数据交换、加工、共享、分析的各个环节数据治理都需要有相关的管理手段与管理工具。

只有从数据的全生命周期去管理数据,这是我们提出大数据治理的核心思想。

之前我们也分享过,元数据在全生命周期中的应用。元数据作为企业数据的核心导向,从元数据角度去看待整个数据生命周期,是数据治理管理的典型应用场景。

1.在规划阶段提供标准元数据规范微服务,在设计阶段提供连接其他微服务的元数据信息,在开发阶段使用元数据协助开发测试。

2.上线后分析微服务的使用情况,并协助维护微服务的变更。

3.最后微服务下架时将微服务的元数据存档,并确保对目前体系不产生影响。

所以说企业大数据、微服务架构需要大数据治理,大数据治理的核心是提供全方位、全流程的数据管控。那么这些思想和概念如何在各个行业中应用,每个行业的数据特点有什么不同?

我们来看一下最后一个部分,各行业数据治理的最佳实践。

以元数据为基础,传统的数据治理只包含元数据管理、数据质量管理、数据标准管理。在大数据、微服务架构下,大数据治理需要增加四个环节。

大数据交换集成、大数据发布共享、主数据、大数据资产化。

可能有人会问,为什么会特定涉及到这四个领域,而不是其他的。这也是我们在多年各行业的实施经验中总结出来的。我们来看一下得出这一结论的理论依据。

我们知道每个行业的业务特点不同,IT发展水平也不同,同样在金融业做一套体系理论,到了电信或电力行业,有可能完全说不通。

我们就逐一的看一下每个行业数据发展的特点,首先我们来看一下电信行业。

电信行业拥有宝贵的数据财富,用行业内的话说是天生带着重资产,比如在某个商圈高峰期人流量,有多少人在上网等。可以做丰富的用户行为分析。

现阶段电信行业注重把这些能力开放出去,让这些数据变成资产,给企业带来新的价值增长点。

在电信行业做数据治理主要偏于2个方面:

1.在做数据能力开放之前,都会把大量的数据放到大数据平台之上,需要元数据平台管理大数据平台的数据。

2.能力开放平台需要数据资产管理,需要细粒度的梳理每个业务字典与数据关系,这时候可以发挥元数据平台的作用与价值。

我们再来看金融行业,金融行业的IT发展水平很高,尤其是银行

我们每个人去银行开户,贷款,都会填写详细准确的用户信息。这些信息加以其他的用户行为数据,也是巨大的数据财富。

所以银行海量的数据也带来业务系统众多,业务种类繁多等特点。

往往银行会把数据治理的事情单独拿出来做,独立于其他部门的业务体系。

比如单独建立数据治理委员会,从组织架构、管理、技术支撑,项目实施几个环节对全行业务系统的数据质量,数据标准的执行情况进行考核,评价体系等。

再看看一下制造业的数据治理特点。

与金融业形成对比,制造业的IT水平起步相对较晚,而且加工工艺流程众多。而且同样的数据在不同的阶段都有应用,而且应用的角度不同。

比如同样一个“螺丝“,采购时用的是螺丝的价格、名称、厂家。在设计时用到的就是螺丝的规格,国标号。在工艺加工时,用到的是热膨胀的系数等。

所以制造行业把具有相同概念的数据统一管理起来,形成标准化数据。也就是我们常说的主数据管理。

在主数据管理中,会遇到很多数据质量的问题,数据标准化流程梳理问题,这些都会用到我们的数据治理平台。

我们再来看一下政府行业做数据治理的特点。

政府机构所管理的民生相关的数据种类非常庞大,但数据的复杂性其实并没有其他行业明显。这时候我们就需要快速的数据交换与集成架构,如何在种类众多的数据种类中快速找到自己想要的数据?

就好比我们看一本书,需要快速定位定位到书中的内容,那么最快的方法就是去看书的目录。

所以在政府行业数据交换体系中就出现服务目录的概念。对于基于服务目录体系的数据交换应用是政府行业做数据治理的特点。

最后我们再来看一下电力行业数据治理的特点。

电力行业的数字化变革其实我们每个人都可以感受到,家里的数字化智能电表,我们只需要在应用端点击支付就可以实时充值电表的余额。它也同时把我们每时每刻的用电情况回传。这样同时也带来了海量的数据膨胀。数据治理在管理海量数据资产与数据资产运营发面发挥作用。

以上讲解了大数据微服务时代:数据的重要性,如何做数据治理,以及在各行各业怎么去做数据治理。

最后总结一句话“大数据微服务时代需要有高质量、规范的数据做前提条件”。

附: 各 群 答 疑

(解答人:普元大数据产品线资深架构师刘劲廷)

Q1、群友:在BI的报表制作过程中,指标计算的口径根据系统各有不同,请问应该如何统一指标的口径呢?

答:这个问题很好。这个也是数据治理在指标应用领域的问题。问这个问题估计是没有做平台的统一指标层。一般数据平台如果建立好,一开始没有考虑到指标层,加工口径不统一,做数据治理,就包括梳理业务报表的指标口径,通过一个统一的指标库,把指标计算结果放进去。以后BI加工就会统一调用这个专用的指标库。但是,实施起来需要先梳理业务指标之间的关系,分为基础指标与衍生指标。

Q2、群友:大数据治理下,一般有哪些重要的流程要考虑?

答:最基础的流程是大数据环境下元数据的管理流程,其次是数据标准化规范流程,比如标准的制定和更新,最后是数据质量闭环提升流程,这三方面的流程是做大数据治理规划时重点考虑的流程,另外针对不同的行业和不同的环境可以考虑附加流程,如大数据资产化的流程,即哪些数据能上升为数据资产的流程。

Q3、群友:讲师讲得很好,数据治理的意义说得很清楚了,那么具体的步骤和措施,能大概描述一下吗?比如说,如何做到字段回事?回溯要做到哪个级别?再比如说,数据纠错,到底是由谁来发起?

答:字段回溯从技术层面,需要SQL解析技术 如解析出,字段之间的关系。最细粒度也就是到字段级。数据纠错 一般是一个数据闭环,数据的提出者是数据的使用者或IT部门,但是真正要从源头解决质量问题,还得是到业务系统中。需要有一个闭环的质量流程来监控。

Q4、群友:数据治理未来的重点规划是什么?

答:我们已经积累了数年的数据治理经验,近期正在规划做“新一代”的普元元数据平台。希望能把元数据作为整个数据治理的核心,支持数据共享,数据交换等方面。从架构上利用元数据的优势更好的实现自动化,帮助企业获得高质量的大数据。

Q5、群友:具体的数据纠错,可以举个例子吗?

答:一般企业数据产生错误数据包含几个环节,包括系统录入错误 加工计算错误 自动和人为因素等。发现问题一般不是直接在业务系统里面改,除非在平台或者报送环节进行数据直接补录修改。一般情况是把问题反馈给错误产生的源头系统,进行排期上线整改。

关于作者:

刘劲廷

EAII-企业架构创新研究院 专家委员

现任普元大数据产品线产品管理部资深架构师,十余年IT工作经验,八年以上数据治理相关领域工作经验。国内最早参与研发元数据产品的人员之一。2014年加入普元,全面帮助普元开展大数据与数据治理领域售前方案和相关工作。曾参与国开行、中信银行、华夏保险等企业数据治理项目。对数据治理领域有着丰富的方案与实施经验。

原文发布于微信公众号 - EAWorld(eaworld)

原文发表时间:2016-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

关于云计算基础架构IaaS层的几点看法

真实的云计算什么样? 云计算对普通用户来说,总是一个云里雾里的话题。本文从最基础的概念开始科普,说明了四个常见的错误理解,和作者的四个猜想。 IaaS(Infr...

6416
来自专栏DevOps时代的专栏

世界级DevOps专家 : Kris Buytaert带你认识原味的DevOps

前言 大家上午好,我会很快介绍一下自己,我的名字叫Kris,我和Patrick一起在很多年之前开始做DevOpsDays。我做这个行业已经有20年了,我最开始是...

2497
来自专栏人称T客

移动CRM未来:将要打通不同的数据库与良好的体验

毫无疑问 Salesforce 是目前应用最广泛的客户关系管理(CRM)系统之一。然而,BYOD(bring your own device)的转换将改变销售...

3729
来自专栏云计算D1net

关于私有云的10个事实

对于企业而言,云服务的自主权、敏捷性和生产力是他们选择的主要标准,通过运维私有云迎合他们的需求可以获得很高的效率。技术管理团队应该致力于将私有云价值最大化来服务...

37210
来自专栏机器之心

2款AI芯片、深度学习框架MindSpore:华为史无前例集中发布AI战略

华为本次发布的 AI 全栈式解决方案,让这家公司成为目前全球唯一提供 AI 全栈软件和系列化芯片的提供商。同时,华为还提供了一套与之配套的统一开发框架。

1743
来自专栏北京马哥教育

什么样的运维工程师可以进入阿里巴巴?

最近这两天,运维工程师的市场行情突然好了起来,不仅各大招聘网站运维的职位数量飞快增长,连各大巨头都开始不安分,在自家招聘系统上拼命的更新职位。 特别是阿里巴巴,...

6665
来自专栏云计算D1net

云计算提供商进军混合云市场的注意事项

2015年云市场显然是混合云唱起了主角,此前曾在私有云或是公有云市场有所成就的众多服务提供商们很多都开始转战混合云市场。根据Gartner的调查显示,四分之三的...

2886
来自专栏大数据文摘

技术牛逼也要懂点社交:数据科学家公司生存指南TOP30秘诀

1833
来自专栏人称T客

报告丨云HR市场优势和不足

编译 T客汇 Felix 云端HR的优势 图5 SaaS应用在HR系统中带来的好处 ? 来源: ISG,2017 尽管看起来节省成本是SaaS的最大好处,不过...

3547
来自专栏ATYUN订阅号

3个方法减少AI聊天机器人程序中存在的偏见

使用自然语言处理的人工智能聊天机器人几乎应用到了所有行业中。一个实际的应用是提供动态的客户支持,使用户能够提出问题并获得高度相关的响应。例如,在医疗保健方面,一...

1063

扫码关注云+社区

领取腾讯云代金券