首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于数据质量及管理的一些思考

大数据观察

了解大数据,从关注大数据观察开始!

数据质量问题

什么是质量

关于质量是有个一个标准定义的:一组固有特性满足明示的、通常隐含的或必须履行的需求或期望(要求)的?程度。

这里面包含了两层意思,一个是说质量其实是一组特性,另一个是说质量需要满足需求或期望。

所以如果从数据分析的角度来说数据质量,就是看当前数据的特性能否满足我们做数据分析或挖掘这个需求。

质量问题的来源

数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。

除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。

而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。

数据质量管理相对来说成本比较高。

因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。

从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。

在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。

数据质量管理

数据工作流质量管理

下面再来谈谈数据质量管理。

质量管理前面提到了,涉及到数据工作流的各个环节。

数据的工作流可以分为以下几部分:数据产生、加工处理、存储、挖掘和应用。

质量管理的前提是在每一个环节建立质量标准。

数据的来源包括:业务系统产生的数据、外部系统的数据、手动录入的数据等,从这些源头采集数据,然后经过数据通道进行加工处理(ETL,Extract-Transform-Load),数据进入到数据仓库或数据集市当中。

然后业务人员、数据科学家、数据工程师等,会在数据平台对数据进行探索和挖掘,这个过程可能发生在数据仓库,也可能是在数据沙箱中进行,最后对数据探索分析挖掘的产出结果,会以数据应用的方式发布出来,具体的形式包括:数据报表、数据门户、OLAP、数据产品、数据服务、智能模型等等。

数据质量监督

除了制定质量标准外,还需要对系统中的数据本身和数据工作流进行监督管理。

对数据系统进行实时监控,监测数据工作环境的服务器软硬件运行状态、性能、磁盘空间、数据库事务、锁、缓冲、会话量、备份等等一系列指标,实施预警机制,并监测一些异常情况的发生。

对数据进行定期校验,除了对数据系统进行实施监控外,还需要对数据进行校验:日常校验、数据抽检、全面校验等。

审核制度也是保证质量的一个重要措施,特别是对于敏感数据和敏感操作。建立数据变更时候的分级审核制度,尤其是一些影响较大或者权限较高的操作。建立审批制度,对于数据的读取,如果涉及到敏感数据,必要时,也需要数据审批或者是数据脱敏。

总结

数据质量在任何系统当中都是十分重要却容易被忽视的一部分。构建完整的数据质量管理体系,既是支持企业系统稳定运行的基本保障,同时也是企业进行数字化转型、创新的必备条件。

文章与部分图片来源于网络,如有疑问,请联系删除

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713B1A8I300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券