数据治理(data governance),是指将数据视为企业资产,对数据进行优化、保护和利用,并对组织内的人员、流程、技术和策略进行统一的安排,是对数据的全生命周期管理。
实施数据治理的目的是为了提高数据质量,更准确地为企业的决策和战略服务;同时保证数据安全,即保护数据的保密性、完整性和可用性;进而,在高质量的数据且具有一定安全性的基础上,实现数据资源在各组织机构部门间共享,帮助企业从数据中获取最优的价值。
为什么要进行数据治理呢?
企业在开展业务过程中得到的数据往往存在着很多问题,比如:
上述的这些问题,我们都可以通过制定一套完整的数据政策、数据标准、指导原则和规则工具,来更好地定义管理数据的流程,提高数据的可用性。
对于企业来说,数据治理是非常重要的。企业在开展业务活动的过程中,它的各种信息系统将产生大量的数据资源,此外还会获取很多来自线下的数据。这些数据或多或少存在着数据错误重复、数据标准不一致、数据在各个系统的接口不统一等等的问题,这些问题影响着企业更好地使用数据。通过对数据进行一定的治理,这些情况就会得到极大的改善。
数据治理包括数据认责管理、数据定义管理、数据架构管理、数据标准管理、数据质量管理、数据安全管理,通过这一系列的治理活动,数据资源变成了可利用的数据资产,继而帮助企业产生更多的业务价值。
数据认责 是指理清数据使用者、所有者、提供者、管理者在数据治理中的角色;数据定义 是指元数据的整合、控制以及提供元数据,元数据是描述数据的数据,涵盖了数据的组织、数据域及其关系的信息;数据架构管理 定义了数据资产管理蓝图,确保我们可以及时获得数据;数据标准 制定数据模型标准,主数据和参考数据标准以及指标数据标准;数据质量 是用来帮助定义、监测和提高数据质量的一系列活动;最后,数据安全 确保了数据的安全性、保密性和适当的访问权限以及保护用户隐私等等。
一言以蔽之,数据治理可理解为对数据管理的管理。它关注组织架构、制度、流程这些管理要素的整合和执行,目的是更好地提高数据的质量、更好地构建数据资产。在数据治理的这些活动中,数据质量管理是核心模块之一,它关系到使用数据的好坏和模型结果,进而影响数据资产的应用价值。
数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡这整个生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。因此,数据质量管理是循环管理过程,包含对数据质量的改善,也包含对组织的改善。
数据质量可以从完整性、一致性、准确性、及时性这四个方面进行评估。
除了这四个主要指标外,还有一些其它标准。包括规范性,即数据格式是否统一,比如时间都应以四位年两位月两位日格式存储;唯一性,即数据唯一不重复,比如同一个ID应没有重复记录;关联性,即数据间的关联不缺失,比如建立两张表后,二者之前应有的关联关系必须存在。
数据清洗是数据质量管理中十分重要的一步,它是指从一个充满拼写错误、缺失值、异常值等问题的原始数据集中,通过缺失处理,异常处理,数据转换等手段,最终映射为一个符合质量要求的“新”数据集的过程。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。