【案例分享】业务创新,没有大数据治理怎么行?

目录

一、大数据治理与业务创新的关系

二、大数据治理的关键步骤

三、大数据治理的主要成果

一、大数据治理与业务创新的关系

数字化时代,我们的数据来源比以前更广了。第一,之前传统企业政府的IT系统主要是面向内部使用,产生了一些信息,现在已经面向外部使用了;第二,更多行为信息、社交信息都会变成企业的数据;第三,我们有很多非结构化的数据,比如媒体、视频数据等;第四,还有物联网传感器方面的数据等。

这些数据大部分是非结构化的,如媒体数据、视频数据,包括物联网传感器等信息,这些信息远比以前更加难以管理,怎么样把这些信息管理好,充分发挥这些信息中的价值,就是企业所需要面对的问题。

现在不少企业为了更加明确数据部门的目标,已经把数据管理部的名字改为数据服务部了,由数据管理转变为数据服务,以前是数据部门是自己准备数据给自己用,自己做一些分析报表等,现在更多是要把这些提供给别人用,为业务创新服务。

目前很多企业也意识到了数据管理的重要性,CDO也逐渐成为数字化企业的标准岗位,成为企业组织结构中的一部分,CDO已经不仅仅是一个职位了,而代表着数据部门职能的改变。企业如何把数据管理好,用服务的方式提供出来,成为了大数据治理的核心。

我们认为,大数据治理应该是自动化、自助化、智能化的,把大数据治理当做一系列服务给别人提供出来,可以让大家更好地开展大数据治理。

二、大数据治理的关键步骤

我们今天要讲的是,要想做好好大数据治理服务化,首先我们要实现两个目标,模清现状,理顺数据。

我们分为四步走:

第一、数据资产地图,实现数据与业务的统一

第二、数据资源目录,让业务找见数据

第三、建立统一数据标准

第四、未来可以实现数据的自助化服务

  • 建立数据资产地图,实现数据与业务的统一

某航空公司的系统建设方式是采用传统系统建设方案,由业务驱动系统的建设,没有更多的考虑系统融合的场景,但随着发展的变化,业务的协同性,变得更加重要。例如飞机如果发生了故障,需要一系列的业务协同,而原有系统彼此都管理着交叉的部份。

在业界,达美行空采用的是SOA的系统架构,即16个业务系统,对应有16个核心数据主题,在核心业务数据上做到了统一,业务流程通过调用多个服务访问数据。而我们的数据则是散落在各个系统内,例如旅客信息是在多个系统中都有管理,为业务的协同带来了很多复杂性。

在该航空公司已经建设了数据仓库系统,我们希望通过梳理发现主题与来源业务系统的对应关系,发现交叉数据流向关系,理顺系统架构。从规划的角度逐步完善和调整业务系统职能。实现航空公司顶层数据模型设计,建立数据资产目录树,从顶层数据模型到底层数据实体,完成分类、分级的数据目录结构设计,并完成数据模型设计方法论。

实现数据架构与应用系统对应关系,从顶层数据模型,逐层找到数据实体,再到数据库表,最终到应用系统,实现数据架构与应用系统的对应关系。找到数据模型设计的不合理,在数据血缘分析过程中,提供数据关联关系分析报告,识别出不合理的数据模型。(比如,用户数据在多个应用多张表中独立存储,视为不合理,需改进)。从而最终实现核心业务数据上做到统一。

  • 数据资源目录,让业务找见数据

我们说数据管理面临最大的问题是找数据难,难在哪?

难在信息缺失。不知道数据在哪?数据的定义是什么?就是数据的描述。数据的关系是什么?从哪里来到哪里去?指标的计算公式,统计口径又是什么?还有数据的到达时间等等。

如果不知道这些信息我就不知道该如何利用这些数据。资产盘点就是要模清我们有什么数据,理清来龙去脉,这样才能使用数据,发挥价值。

举个例子

当我想要做飞机的主数据时,我需要知道机务飞机数据,运行飞机数据,规划飞机数据都在哪些系统中,这些数据的关系是什么,还有哪些我没有考虑到的飞机数据?

面对这些问题,我们需要把所有系统都调研一遍,因为我也不知道数据在哪里,有的部门也没有能说清楚数据的关系是什么,因为有的系统是外部采购的软件套件,这就造成了需求实现时,面临沟通成本大,实现起来难度高等一系列问题。

那么困难点在哪?

技术人员与业务人员存在沟通鸿沟,一般业务人员只是提出了一个需求说我要什么,技术人员负责实现,但是技术人员不了解业务,不知道业务的数据关系在哪,就不知道数据该如何加工,导致技术实现的不是业务人员想要的数据。

业务人员调研的局限性,是业务人员在做一个新的需求时,首先要收集素材,就是准备需要的数据,但是如何找见数据呢?业务人员只能凭借自已的知识体系去找,按照自已的理解去各个业务系统中去找素材,这种做法会局限在业务人员知道的情况下,但是不知道的部分如何找到呢?

如何做?

首先需要将所有业务系统的数据字典收集起来,利用元数据,通过技术手段,自动化的采集系统模型信息,有一个统一集中展现查询的平台,通过检索字段的方式,找到需要的数据模型对象,再查看数据定义等信息,让业务人员在平台中,以自助的方型进行模型调研,通过可视化方式建立双方沟通的桥梁,完成业务对象关系映射,从而为数据资产的获取提供便利性。通过这种方法来实现让业务找见数据。

  • 建立统一的数据标准

过去的业务系统里,我们数据都在各自的系统中,不存在统一的问题,但是当前形式下我们的数据需要集中起来,需要把各个来源系统中的数据抽取到一个库中,那么新的问题就产生了,因为原有的常旅客系统与地服系统中都存在航班性质字段,分别用不同的代码来表示国内航班、国际航班、区域航班,比如常旅客系统中用D、I、R来表示,地服系统中用001、002、003来表示,这就需要先将它们的代码进行统一,转换成一种表达方式,这样才能将数据进行分析和共享。对于业务对象的含义,很多时候还存在同名不同义,同义不同名的问题。

  • 未来可以实现数据的自助化服务

对于数据中心的外部应用来说,如何快速提供给我一份需要的数据是比较麻烦的事。因为首先我需要提需求给数据平台的部门,然后再由他们负责调研,生成ETL作业,最后再给我提供一份数据,整个过程耗费的时间比较久,因为外部的应用需求越来越多,数据中心的人要做大量的工作,跟本应付不过来众多需求,那么如何解决响应慢的问题呢?

建立自助的数据共享服务成为行业的一大趋势,要想实现自助的数据共享服务,首先我们要解决三个问题。

数据平台已经有哪些数据?如果有,我能直接获取吗?数据安全如何控制?

我们通过元数据自动化采集来实现有哪些数据?通过平台实现ETL自动生成的能力,让数据自助生成下发给外部应用。建立数据安全级别的管理体系,对表或字段进行标记,实现数据安全的控制。解决以上的三个问题,我们就能够实现数据的自助共享服务。

三、大数据治理的主要成果

通过与达美航空对标,我们最终建立了主题域,即客户、员工、位置、订座、票务、航班、航班计划、财务、资产、设备、维修、运价、销售、产品库存。针对每个主题域给出了业务实体目录及定义,梳理实体总数200多个。通过对数据仓库贴源层业务系统表的核查及分析,给出了每个业务实体对应的数据库表与系统。

通过以上的数据,为某航空公司数据架构治理提供有力的指导依据,进而改进系统职能划分。通过数据地图的建立, 我们得出:实际能映射到源数据的实体很少,数据覆盖率,即数据的完整性低。平均覆盖率不到25%。256个模型实体,只有60多个实体有源数据映射。即使相对丰富一些的客户主题也仅有55.56%,员工主题45%。特别是维修MAINTENANCE、设备EQUIPMENT、位置LOCATION三个主题的覆盖率不到20%,几乎没有MANTENANCE主题的源数据。

一些主题的关键实体没有数据源映射,如财务主题的总账、财报没有数据源。另一方面,客户CUSTOMER、员工EMPLOYEE映射的源数表超过了模型实体数,但是映射覆盖率并不高,说明数据分散(分布于11个源系统中)且可能有冗余,数据的一致性、完整性难以实现与保证。

我们梳理了基础数据标准:技术标准30000多个,指标标准70多个, 基础标准20000多个。指标标准统计了利润指标、收入指标、生产运行指标、考核类指标、营销专项业务指标。

为业务分析指标数据,下游共享数据提供了有力的支撑。

最后我们总结一下,企业通过数据资产地图实现数据与业务的统一,从架构的角度治理数据;再建立数据资源目录,让业务找见数据;建立统一的数据标准,理顺数据;未来可以实现数据的自助化服务,让大数据治理驱动业务的创新。

关于作者

朱瑞

现任普元大数据产品线架构师,近十年IT工作经验,带领和参与了普元元数据、数据质量、数据标准的规划与研发。主导完成上海移动、中信银行等元数据建设和数据管控项目。

原文发布于微信公众号 - EAWorld(eaworld)

原文发表时间:2017-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏王磊的博客

一个好的技术团队应该怎么选择开发语言

在过去的三年时间了,作为曾经的研发部经理,我和我的技术总监始终在为一件事而努力着,那就是选择一门合适我们团队的技术语言。 我们研发团队一共有9个人,分为三个小组...

36880
来自专栏云计算D1net

不要仅仅将云计算当成一项技术

现代企业数据中心对云计算基础设施的采用,为CIO们提供了一个机会,挪动悬在头上的几把利剑与最经常被引用(而往往成绩不佳)的IT目标:更短的新产品上市与服务时间,...

34060
来自专栏喔家ArchiSelf

Talk is cheap, show me

曾经特别喜欢阅读《xx本质论》系列丛书,当图灵的1月新书《软件开发本质论》上架时,果断买下,选一个并不忙碌的周末,倾听《敏捷宣言》起草者之一 Ron Jeffi...

11320
来自专栏互联网数据官iCDO

如何确保营销效果?介绍6个你都听过但没用好的步骤

插播上海沙龙:营销没效果?在成本约束条件下如何有效获客? 译者:洛姿亦 在解决效果营销的过程中,我们都听过很多操作方法,比如制定目标、分解目标、跟踪数据、测试...

40980
来自专栏数据科学与人工智能

【陆勤阅读】数据可视化应遵循的五条核心原则

在数字时代初期,数据只是数学家与科学家们讨论的话题。而如今,不管任何领域,任何人,都逃脱不了对数据的讨论和研究。 由于数据大潮的到来和人们关于数据使用的讨论,一...

23960
来自专栏CDA数据分析师

国外公司是如何挖掘社交媒体数据的?

原作者 Alex York 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 前言 在大数据时代,很多公司开始利用数据、分析数据,以协助自...

84190
来自专栏java一日一条

拿什么来衡量程序员的生产力?

老实说,我们现在还没有明确的方法可以衡量程序员以及整个团队的生产力。我们可以确定谁可以依赖,谁比较努力,但却无法证明这些猜想,也没有量化的方法。

9710
来自专栏罗超频道

IPTV、互联网电视、网络电视、智能电视,这些概念有什么区别?

这是知乎上的一个问题,碰巧被纳入了“知乎日报”。我在2012年的回答获得了最多的“点赞”。这里分享给大家臭美一下。 原问题是: “云电视、网络电视和智能电...

43460
来自专栏DevOps时代的专栏

灰度发布,链接 Dev 与 Ops 的正确姿势

序言 在软件吞噬时间的时代,在IT基础设施多样性与分布式趋势中,部署的复杂性与规模日益增加,而大部分的软件崩溃都发生在部署过程中。目前提高部署效率与稳定性成为了...

759100
来自专栏DevOps时代的专栏

浅谈海量平台的质量管理

49430

扫码关注云+社区

领取腾讯云代金券