企业怎样用“五步法”提高数据准确性?

(本文约2500字,预计阅读时间5分钟)

在数字经济时代,“人工智能”、“区块链”等名词热度不减:万事万物都被接入网络,数字化洪流滚滚来袭。然而无论是个人还是企业,均面临一个问题:系统中的数据是否正确?我们可以相信屏幕上显示出的信息吗?如果最基层的成本/销量/资源等数据都不准确,那么数字化系统也就成了沙滩上的城堡,毫无根基可言。

数据验真,从哲学上说是一个复杂的问题,从实际操作来说也和很多因素有关。对于企业而言,员工故意造假/数据格式不兼容/收集数据方式错误等原因,都可能会造成记录的数据和实际运营不符。而后果往往是不愉快的:轻则耗费时间和金钱去纠正数据,重则造成企业信誉受损、股价暴跌,甚至关门大吉。

图1:提高企业数据准确性的五个步骤

为了帮助企业更好地提高运营数据准确性,为数字化系统的使用打下坚实的基础,本文总结了“收集-清洗-规整-使用-更新”五步法,供相关人士参考,并希望起到抛砖引玉的效果。这五个步骤未必在每家企业都要完全引入,例如“清洗”和“规整”在有些公司是合为一个步骤的。

(1)数据的收集

数据收集(collecting)需要注意几个方面:

数据输入点最好是在事件发生地附近例如:想要记录仓库的库存水平变化,最好能够在仓库内实地观测(这种“深入现场”的思想和边缘计算有相通之处)。

最好能够实时进行数据采集如果数据记录的延迟时间过多,则观察对象可能已经发生了变化。

基于第二点考虑:尽可能采用自动化技术来采集数据,来替代人工的收集和记录。

随着物联网技术的普及(如图2所示),企业对于数据的收集能力有了很大提高,并且越来越多地采用自动化技术,从源头上保证数据的准确和完整。

图2物联网应用有利于数据的收集。来源:EUROTECH

(2)数据的清洗

清洗(cleaning)是指:在收集了数据之后,就需要对其准确性进行检验,作必要的纠正。如何能够发现数据中的错误呢?这里有若干小技巧(如图3所示):

找出那些显然缺失的数据。如果一份数据表格中有明显的空白,则可能在数据收集和录入的时候有所遗漏。

注意那些“鹤立鸡群”的数据,或者说“奇点”数据。如果某个点的数值比同类点明显高出一个数量级以上,则可能存在笔误等情况。

检验数据之间的逻辑关系。例如,可以用“单价*采购量=总采购价值”这样的公式来检验单价、采购量、总采购价值这三个数据之间的关系。如果公式不成立,则至少有一个数据出错了。

按照常识来判断数量级。例如:如果某类汽车零部件的单个重量超过100吨,则此数据必然有错(可能是搞错了重量单位)。

这里还要附加说明两点:1)用肉眼来寻找数据错误会是一件很繁重的工作,如果能编写一些计算机程序来辅助检验,可以提高效率;2)没有一个企业能确保数据100%正确,能达到95%正确已经是很高的水准了。所以,要在数据清洗所耗费的人力物力和结果准确性之间取一个平衡。

图3数据清洗的常用技巧

(3)数据的规整

规整(normalizing)阶段主要解决两个问题:数据格式的统一(如图4所示),以及数据流的打通。

数据格式之所以需要“统一”,往往是因为系统中存在多套数据库:它们来自不同的供应商,在数据格式上有很大的差异。如果不能够对格式作及时转换和标准化,可能会给用户带来很大的困扰(要同时适应好几套不同的表达方式),并且各个数据库中的数据记录可能会存在重复的现象。

数据流的打通也是很重要的:在各个数据库和数据源之间,如果不能存在数据的同步更新,以至于出现了一定的“时间差”,即使有正确的数据收集和清洗机制,也可能导致系统中存在自相矛盾的信息。

图4数据规整的过程

(4)数据的使用

数据终究是要用来解决问题的,而不是为了摆设。所以在“收集-清洗-规整”之余,也要认真思考一下:目前这些数据对公司到底有什么用?

首先可以检验的一件事情是:有多少人在实时地用信息系统中的数据开展工作?这里,“实时”两个字非常重要。很多企业若是仔细检查,会发现员工存在“线上一套,线下一套”的现象;他们购买了极其昂贵的专业软件,可实际工作却主要用Excel来开展,只是在线下做完了工作之后“补登记”到信息系统中,导致专业软件沦为“账本”,失去了本来的意义。

类似地,企业可以调查一下每个部门实时使用的数据库究竟有哪些,以及它们的功能是什么,然后把各个部门的调查结果核对一下。由此可能会发现:某些数据库是根本没必要存在的。

数据的使用还有一个重大意义,就是在实际运行中进一步发现数值存在的问题,然后反馈到数据库的维护人员处,从而及时更新,形成闭环。所谓“实践是检验真理的唯一标准”。

图5:数据是用来解决问题的。(来源:军报记者)

(5)数据的更新

如上述提到的:企业数据需要经常作更新,其一大来源是公司的运营过程:在使用中纠错,在实战中获得反馈和提高。

即使在实战过程中没有太多反馈,企业的数据也应该定期更新(如果是实时更新更好)。某些关键的运营指标、技术参数等应该设置更新日程表,按照每日/每周/每月之类的频率来检查和更正,以免数据过时,“刻舟求剑”。

另外,现代市场竞争环境复杂多变,导致公司组织架构、运营流程等也经常发生变化。在这样的变动之下,公司的相关数据及其收集流程也应该及时更新,以跟上企业发展的步伐。所以,企业数据的更新是一项需要长抓不懈的工作(如图5所示)。

图6:数据需要不断更新

综上所述:在现代商业环境下,数据的生命和公司组织的生命应该是同步的。在成熟企业中,最好有独立于各具体业务部门的数据管理团队,从公司战略的高度对数据内容和“五步法”流程进行把控,确保数据的顺畅流动和勃勃生机。只有当这个基础打好了,智能化进程和数字经济才能获得更大的发展。

文章作者:冯维博士(CSCP国际供应链管理师论证)

微信公众号:欢迎扫二维码关注:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180414G1H05F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券