前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学通识第六讲:数据治理

数据科学通识第六讲:数据治理

原创
作者头像
数据酷客
修改2020-04-22 14:50:20
7530
修改2020-04-22 14:50:20
举报
文章被收录于专栏:数据科学人工智能
视频内容

数据治理(data governance),是指将数据视为企业资产,对数据进行优化、保护和利用,并对组织内的人员、流程、技术和策略进行统一的安排,是对数据的全生命周期管理。

实施数据治理的目的是为了提高数据质量,更准确地为企业的决策和战略服务;同时保证数据安全,即保护数据的保密性、完整性和可用性;进而,在高质量的数据且具有一定安全性的基础上,实现数据资源在各组织机构部门间共享,帮助企业从数据中获取最优的价值。

为什么要进行数据治理呢?

企业在开展业务过程中得到的数据往往存在着很多问题,比如:

  • 数据使用者可能会抱怨数据重复问题,通常是由于在数据预处理阶段处理不完备导致的,这属于【数据质量】问题
  • 不同的统计口径可能带来数据的度量不一致,没办法进行汇总和计算,这属于【数据标准】问题
  • 通过数据得到的业务报告总是延迟,不能及时对数据进行分析,也就不能帮助企业得到实时的决策信息,这往往是由于【数据架构】中提供数据的接口经常出错导致的
  • 不知在哪里可以找到想要的信息,这需要在【数据定义】阶段实现对数据更好的理解
  • 某个部门不同意数据分析部门对它的KPI考核指标,这也属于【数据标准】问题,不同部门可能使用不同标准来衡量绩效
  • 有时我们知道我们想要的数据是什么,但是因为部门的壁垒或是安全和保密上的一些不明确规定,导致这些数据不可得,这属于【数据安全】问题。

上述的这些问题,我们都可以通过制定一套完整的数据政策、数据标准、指导原则和规则工具,来更好地定义管理数据的流程,提高数据的可用性。

对于企业来说,数据治理是非常重要的。企业在开展业务活动的过程中,它的各种信息系统将产生大量的数据资源,此外还会获取很多来自线下的数据。这些数据或多或少存在着数据错误重复、数据标准不一致、数据在各个系统的接口不统一等等的问题,这些问题影响着企业更好地使用数据。通过对数据进行一定的治理,这些情况就会得到极大的改善。

数据治理包括数据认责管理数据定义管理数据架构管理数据标准管理数据质量管理数据安全管理,通过这一系列的治理活动,数据资源变成了可利用的数据资产,继而帮助企业产生更多的业务价值。

数据认责 是指理清数据使用者、所有者、提供者、管理者在数据治理中的角色;数据定义 是指元数据的整合、控制以及提供元数据,元数据是描述数据的数据,涵盖了数据的组织、数据域及其关系的信息;数据架构管理 定义了数据资产管理蓝图,确保我们可以及时获得数据;数据标准 制定数据模型标准,主数据和参考数据标准以及指标数据标准;数据质量 是用来帮助定义、监测和提高数据质量的一系列活动;最后,数据安全 确保了数据的安全性、保密性和适当的访问权限以及保护用户隐私等等。

一言以蔽之,数据治理可理解为对数据管理的管理。它关注组织架构、制度、流程这些管理要素的整合和执行,目的是更好地提高数据的质量、更好地构建数据资产。在数据治理的这些活动中,数据质量管理是核心模块之一,它关系到使用数据的好坏和模型结果,进而影响数据资产的应用价值。

数据质量管理

数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡这整个生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。因此,数据质量管理是循环管理过程,包含对数据质量的改善,也包含对组织的改善。

数据质量可以从完整性、一致性、准确性、及时性这四个方面进行评估。

  • 完整性 标准主要衡量数据是否存在缺失,量化指标包括字段缺失数、缺失记录覆盖率、计划完成率等;
  • 一致性 标准是指同源或跨源的数据存在冲突,量化指标包括字段一致率、表间字段一致率、表间记录一致率,比如在学生管理系统中,如果两张数据表中存储着相同学号的两条记录,它们应该指向同一个数据对象,也就是同一个同学。如果这两条记录在某一个相同的属性上的值不同,我们就称作出现了数据不一致的问题
  • 准确性 标准是指数据准确度与合理性,量化指标包括准确率、差错率、问题字段个数、问题记录覆盖率等
  • 及时性 标准是指数据在需要时能被及时获取,对应的量化指标包括采集项目及时率、单位入库及时率等

除了这四个主要指标外,还有一些其它标准。包括规范性,即数据格式是否统一,比如时间都应以四位年两位月两位日格式存储;唯一性,即数据唯一不重复,比如同一个ID应没有重复记录;关联性,即数据间的关联不缺失,比如建立两张表后,二者之前应有的关联关系必须存在。

数据清洗

数据清洗是数据质量管理中十分重要的一步,它是指从一个充满拼写错误、缺失值、异常值等问题的原始数据集中,通过缺失处理,异常处理,数据转换等手段,最终映射为一个符合质量要求的“新”数据集的过程。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据质量管理
  • 数据清洗
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档