首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据质量的十个维度评估:我们该如何评估数据质量(质和量)?

在数字化转型的征程中,众多企业都在积极探索提升数据资产质量的有效途径,期望借助数据治理为企业经营与管理注入强大动力,同时依靠 AI 算法和算力的协同作用,推动数智化管理的升级迭代,进而利用人工智能技术全面提升企业的核心竞争力。那么,我们应当如何科学地评估和管理数据质量呢?究竟何为高质量的数据资产呢?

结合我们在为企业提供咨询服务时所规划设计的数据质量提升关键举措,我精心归纳了十个维度,在此分享给大家以供参考。这十个维度依次为:全面性;完整性;真实性;有效性;准确性;精确性;关联性;一致性;实时性;及时性。接下来,我将逐一为大家简要介绍这十个维度。若您想了解在这十大维度上如何确保数据质量,欢迎留言或添加我的联系方式,共同深入探讨。我们已参与多个咨询服务项目,并在持续探索更优的管理策略。

1、全面性

全面性指的是数据采集在企业业务、组织架构以及流程环节中的覆盖广度。我们可以通过信息化建设的覆盖程度来进行评估,具体而言,就是对全业务流程和管理流程进行细致梳理,以此审视数据采集的全面程度。同时,针对各项业务活动,要考量我们的数据是否实现了全面采集,是否存在遗漏。

2、完整性

完整性是数据全面性的进一步拓展,它关注的是应采集的数据是否均已实际采集到位,是否存在空值情况。例如在采集客户信息时,从全面性的角度来看,我们需要明确究竟采集了客户的哪些具体信息,像是姓名、电话、地址、籍贯、性别、生日年龄、职业、家庭状况、婚姻状况、子女状况、工作单位、个性喜好、兴趣爱好以及社会圈层等等,这体现了全面性的要求;而在实际采集过程中,要关注这些数据是否都得到了有效采集,是否因某些原因未能获取而留下空值,空值率和采集率各是多少等等。

3、真实性

真实性着重考察数据采集是否真实可靠,员工在填报数据时是否存在故意作假、随意乱填的情况,或者是否因为怕麻烦而未如实记录。比如销售员在记录客户联系人信息时,为防止他人联系自己的客户,故意留下虚假电话,而将真实电话暗自留存;又如员工担心真实数据不佳,便填报一些好看的虚假数据来粉饰实际情况;再如企业管理中,开会前统计汇总数据时,人为对数据进行调整,导致数据失真,出现假数据和假报告;甚至很多上市公司对外公布的财务报表也存在粉饰数据的现象。这些行为都会严重影响企业数据的真实性。

4、有效性

有效性衡量的是数据能否满足业务的实际需求,是否符合业务对管理维度的评价要求。例如我们若要分析一个订单的利润情况,那么所提供的基于订单的利润核算方法是否有效,能否精确核算到具体的单个订单,就是需要关注的重点。

5、准确性

准确性主要涉及数据采集手段、采集工具以及技术方法的合理性。比如我们要记录客户的身高,使用米尺测量就能保证较高的准确性,而若仅靠员工目测,数据的准确性就会大打折扣。当然,准确性是建立在真实性基础之上的,只有在数据真实的前提下,才会进一步讨论准确性问题。例如在计量时,采用地磅通常比雷达液位仪更加准确,因为液位仪在测量过程中会受到更多因素的影响。

6、精确性

精确性指的是通过计量测量所获得数据的精细化程度,即精确到何种单位,是米、分米、厘米还是毫米;又或者精准到何种重量单位,是公斤(KG)、两、克还是毫克。这实际上涉及到测量误差的大小问题。

7、关联性

关联性是企业数据集的一个重要评测维度,单一的数据记录并不涉及此质量维度。它主要考量多个数据集之间是处于孤立状态还是相互关联,是否能够实现索引和映射。严格来说,企业内部单一业务所产生的数据理应相互关联,通过合理的编号和编码规则,依据 1:1(一对一)和 1:N(一对多)的关系,将多个数据表有机地关联在一起,这便是关联性的体现。

8、一致性

一致性强调历史数据采集方法、统计方法以及处理方法是否保持统一。例如在统计销售额时,如果以前是以发货为准进行统计,现在改为以收货确认,有时甚至以客户付款来确认收入,这就造成了统计方法的不一致。同时,企业内部业务链条前后的数据口径是否一致也会影响数据的一致性。比如成本核算方面,生产实际操作遵循先入后出的原则,而财务统计却按照先入先出的方式计入成本,这就导致了统计口径不一致的问题。因此,我们需要建立从数据采集、传输、存储到处理和计算的一整套规则,以确保一致性。

9、实时性

实时性是对数据采集和统计计算的及时性评价,即数据是在业务发生时即时记录采集,还是事后补录。事后靠记忆填报数据很容易出现错误。例如在 MES 系统上,生产活动发生时立即记录与下班前工人集中填写相比,其采集的实时性就存在差异;另外,在管理数据和运营数据方面,数据产生后是否能够及时统计汇总,并推送给需要数据的人员,这也体现了应用的实时性。

10、及时性

及时性是数据应用端的一个重要评价维度指标。当我们需要数据时,能否及时获取所需数据是关键。例如企业财务报表统计往往需要 T+N 天才能完成结算并生成报表,这个 N 天就反映了及时性的情况。如果月底 30 号结账,1 号大家就能看到核算和结算的数据报表,这可以称为 T+0,这就是及时性的体现。

如今,我们正在推广“t+0”的概念(此处小写的 t 代表实际业务活动发生,区别于固定时间周期的 T),即在业务活动节点就能够产生结算和统计数据。比如一个销售订单结束后,我们就能立即看到订单的利润;一个生产批次结束后,也能及时获取该生产批次的真实成本。这与传统的 T+0 有所不同。

以上便是数据质量评价的十个维度,从数据的采存管用全生命周期进行了全面考量。希望在大家推进数字化转型、对数据进行综合治理的过程中,能为您提供有益的参考。如果您尚未着手开展数据治理工作,不妨收藏这篇文章,以便日后需要时查阅。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdHii9lxCY25_yXbczOV1tzw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券