如今,数据已成为企业的核心资产和重要的生产要素。在数据驱动的信息化时代,企业只有管理好核心业务数据,才能从中优化产品、开拓市场新渠道,打造企业核心竞争力。
但在探索与数据相关的开发技术、应用场景和商业模式时,并非所有项目都能取得预期效果,许多预期需求无法实现,重要原因之一就是数据质量因素导致的。而数据治理正是企业管理和提高数据质量的重要手段。加强数据治理已成为企业提升管理能力的重要任务。
今天DataHunter数猎哥就来给大家说说企业该如何开展数据治理,才能引领企业加快数字化转型,从而获取更大的业务价值。
一、企业数据管理遇到的挑战
在我国,各行业的信息化发展和建设水平并不均衡,对于部分行业,信息化还处于刚刚起步的阶段。但我们可以从金融行业、通讯行业、地产行业、传统制造业以及农业领域总结出规律:企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大阶段,也由此导致了一些问题:
1.数据质量参差不齐
现在,企业越来越重视管理数据资产,但其实并不是所有数据都是数据资产,数据中也有垃圾数据。由于企业各个业务系统或模块都是按照各自的需要录入数据,业务系统不需要的信息就不录,没有统一的录入工具和数据出口,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
2.IT系统孤岛化,数据流通受阻
目前,大多数企业的信息化建设初期缺乏整体规划,大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,于是数据的价值不能充分发挥。
3.缺乏有效管理机制
许多企业尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,比如平台间数据标准不一,缺少全局规范文档,信息无法对接应用等,在数据流转过程中,导致了大量的垃圾数据。以外,数据产权不明确,管理职责混乱,管理和使用流程不清晰,也是造成数据质量问题的重要因素。
4.存在数据安全隐患
近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。
综上所述,看似表面的数据问题其实会对业务带来严重的影响。数据不真实、不准确、数据不透明、不共享都将增加企业经营风险、管理难度和复杂度。最终导致跨组织信息共享程度低、资源难于整合。如何更好地管理和控制数据,做好数据标准化和服务体系建设,成为当前各企业迫在眉睫的任务,而数据治理是关键。
二、什么是数据治理?
所有为提高数据质量而开展的业务、技术和管理活动都属于数据治理范畴。数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。
具体一点来讲,数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。
三、数据治理的目标
数据治理本身不是目标,它只是实现组织战略目标的一个手段,即通过有效的数据资源控制手段,进行数据的监督管理,以提升数据质量进而提升数据变现的能力和管理的效率。
例如基于需求的智能制造、智慧市场监督管理、融合市民服务、一网通办等。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,例如:集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。
而企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。
四、数据治理,具体做什么?
数据治理是长期、复杂的工程,每个数据治理的领域都可作为一个独立方向进行研究,目前总结的数据治理领域包括但不限于以下内容:数据标准、数据模型、元数据、主数据、数据分布与存储、数据生命周期管理、数据质量、数据安全等。同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖:
通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。
1.数据标准
良好的数据标准体系有助于数据的共享、交互和应用,可以减少不同系统间数据转换的工作。
数据标准适用于业务数据描述、信息管理及应用系统开发,包括基础标准和指标标准(或称应用标准)。可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。
数据标准的主要由业务定义、技术定义和管理信息三部分构成。同时还需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。
(1)业务定义
业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。
(2)技术定义
技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。
(3)管理信息
管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。
2.数据模型
数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用,它包括概念模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。数据模型包含三个部分,数据结构、数据操作、数据约束。
(1)数据结构
数据模型中的数据结构主要用来描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和数据约束都基本是建立在数据结构的之上的。不同的数据结构有不同的操作和约束。
(2)数据操作
数据模型中的数据操作主要用来描述在相应的数据结构上的操作类型和操作方式。
(3)数据约束
数据模型中的数据约束主要用来描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。
3.元数据
元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。
(1)业务元数据
业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
(2)技术元数据
它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。
(3)操作元数据
操作元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。
4.主数据
主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。要做的就是从各部门的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的管理,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给企业内需要使用这些数据的操作型应用系统和分析型应用系统。
主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。
5.数据分布与存储
数据分布和存储主要涵盖了数据如何划分和存储,总系统以及分系统数据如何分布,主数据及参考数据(也称为副本数据或者辅数据)如何管理。只有对数据进行合理的分布和存储,才能有效的提高数据的共享程度,才能尽可能的减少数据冗余带来的存储成本。
以商业银行为例,通常情况下,综合数据规模、使用频率、使用特性、服务时效等因素,从存储体系角度,可以将数据存储划分为四类存储区域,即交易型数据区、集成型数据区、分析型数据区、历史型数据区。
(1)交易型数据区
交易型数据区包括渠道接入、交互控制、业务处理、决策支持与管理等各类联机应用数据;存储客户自助或与操作人员在业务交互办理过过程中产生的原始数据的存储,包括业务处理数据,内部管理数据和一些外部数据,其存储的是当前状态数据。
(2)集成型数据区
集成型数据区包括操作型数据(OLTP)和数据仓库型数据(OLAP)。
(3)分析型数据区
分析型数据主要是用于决策支持与管理的各类集市应用的数据。为了对业务执行情况进行深入分析,需要对原始数据进行进一步汇总统计分析,统计分析结果用于最终的决策展示,因此分析型数据区存储了这些统计、分析模型结构的指标数据。
(4)历史数据区
这里存储了所有近线应用、归档应用、外部数据平台应用等的数据,主要满足各种历史数据归档后的数据保管和数据查询服务。
6.数据质量
高质量的数据是进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。
(1)制度和规范
从技术层面上,应该完整全面的定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。
(2)明确相应的管理流程
数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。例如,在需求和设计阶段就需要明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。
7.数据生命周期
任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。
数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。
8.数据服务
数据服务管理是指针对内部积累多年的数据,研究如何能够充分利用这些数据,分析行业业务流程优化业务流程。数据使用的方式通常包括对数据的深度加工和分析,包括通过各种报表、工具来分析运营层面的问题,还包括通过数据挖掘等工具对数据进行深度加工,从而更好的管理者服务。通过建立统一的数据服务平台来满足针对跨部门、跨系统的数据应用。通过统一的数据服务平台来统一数据源,变多源为单源,加快数据流转速度,提升数据服务的效率。
9.数据安全
数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。数据安全管理主要有以下三个方面:
(1)数据存储安全
包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。
(2)数据传输安全
包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。
(3)数据使用安全
需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。
五、企业数据治理需要注意什么?
数据治理是一个复杂的系统工程,涉及到企业和单位多个领域,既要做好顶层设计,又要解决好统一标准、统一流程、统一管理体系等问题,同时也要解决好数据采集、数据清洗、数据对接和应用集成等相关问题,这时就要注意以下方面:
1.跨组织的沟通协调问题
数据治理是一个组织的全局性项目,需要IT部门与业务部门的倾力合作和支持,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理。因此,数据治理项目需要得到组织高层的支持,在条件允许的情况下,成立以组织高层牵头的虚拟项目小组,会让数据治理项目事半功倍。
2.投资决策的困难
组织的投资决策以能够产生可预期的建设成效为前提,但往往综合性的数据治理的成效并不能立马体现,它更像一个基础设施,是以支撑组织战略和长期发展为目标,所以,导致此类项目无法界定明确的边界和目标,从而难以作出明确的投资决策。
3.工作的持续推进
数据治理是以支撑组织战略和长远发展为目标,应当不断吸收新的数据来源,持续追踪数据问题并不断改进,所以数据治理工作不应当是一锤子买卖,应当建立长效的数据改进机制,并在有条件的情况下,尽量自建数据治理团队。
4.技术选型
这几年随着大数据的发展,有针对传统数据库的,有针对大数据数据库的,再加上组织对自身数据资产情况没有一个清晰的认识,这也就导致了数据治理的技术选型困难。
六、小结
1.数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。企业无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。
2.企业数据治理是应有高层领导牵头,业务部门负责,信息部门执行,企业全员的参与。在实施数据治理时需因地制宜,不论建立什么样的数据治理体系、采用什么样的数据治理技术,其目的都是实现数据治理目标,即通过有效的数据资源控制手段,对进行数据的管理和控制,以提升数据质量进而提升数据变现的能力。
3.数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价值。而数据中台本身就承载着组织内部所有数据的整合分享角色。
这里不得不提到DataHunter数据中台解决方案,能结合企业需求快速开展数据治理工作。
通过有型的产品支撑和实施方法论,解决大企业面临的数据孤岛、数据维 护混乱、数据价值利用低的问题,依据企业特有的业务和架构,构建一套源源不断地把数据变成资产并服务于业务的, 可持续让企业数据用起来的机制,让数据可见、可懂、可用、可运营。
数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用BI类的产品快速获取需要的数据,并分析形成报表,比如Data Analytics。
Data Analytics是一个轻量级业务数据可视化平台,可一键快速接入企业本地和云端内外部Execl/CSV等数据文件,无需编程仅需简单的拖拽即可制作酷炫的数据可视化看板,用直观的数据帮你做好业务的运营管理。
第283篇 数据分析展示就用DataHunter
-End-
*参考资料:
【1】《数据治理系列1:数据治理框架【解读分析】》石秀峰谈数据
【2】《数据治理怎么做?这篇万字长文终于讲清楚了》数据工程师金牛CSDN
【3】《数据工程师金牛》苏槐AI前线
【4】《据治理顶层设计是数据管理工作首当其冲的任务》王建峰数据工匠俱乐部
关于 DataHunter
DataHunter 是一家专业的数据分析和商业智能服务提供商,注册于2014年。团队核心成员来自IBM、Oracle、SAP等知名公司,深耕大数据分析领域,具有十余年丰富的企业服务经验。
DataHunter 旗下核心产品智能数据分析平台Data Analytics、数据大屏设计配置工具Data MAX已在业内形成自己的独特优势,并在各行业积累了众多标杆客户和成功案例。
成立以来,DataHunter就致力于为客户提供实时、高效、智能的数据分析展示解决方案,帮助企业查看分析数据并改进业务,成为最值得信赖的数据业务公司。
领取专属 10元无门槛券
私享最新 技术干货