专栏首页张俊红作为一台“取数机”,你能不能把数据取准确?

作为一台“取数机”,你能不能把数据取准确?

作为一名数据分析师,可能经常会抱怨自己整天在接一些临时数据需求,根本没时间去做分析。所谓的临时数据需求更多的都是取数,一会领导要你看一下这个数,一会业务部门又要那个数,是不是感觉自己活生生就是个提数机器哈。我们先不论这种情况合理不合理,既然做了就要把这件事尽可能的做好,今天给大家分享一篇傅老师写的《关于如何能把数据取准确》。以下为分享正文:


笔者先来讲讲自己的2次经历。

一次是宕机取数的经历:

很久以前当我们的数据仓库还是IBM DB2的时候,曾经经历过2次宕机,第一次记得是系统日志出现了不一致导致数据库无法启动,后来联系了国外研发把日志那个环节跳过了才拉起来,躲过一劫;第二次是DB2 的一个序列号TMD满了,直接躺倒,这是我所经历过的最黑暗的时候。

为了保障生产,我们临时启用应急库,要重跑近几天的所有数据,在这个过程中,所有的脚本都要手动调起,很多SQL脚本还要临时写,但越是到这种时候,就越容易出错。

我清晰的记得当时要紧急跑出当天的数据以便满足考核上报的要求,有位半新手的同事(其他同事去忙着恢复其他的表去了)直接针对一张海量的数据表进行了del操作,导致数据库直接回滚,所有人的工作都被迫停止,只能傻傻的等着回滚结束……。

准确的取数能力就是直接的运维生产力。

一次是营销取数的经历:

对于运营商来讲,最大的产品就是资费套餐,每次新推出资费套餐的时候,市场部门都会做严谨的资费预言测试,看看新推出套餐后对于收入、业务量的影响,这种取数一向以复杂、综合难度高著称,因为会涉及各类表的关联交叉分析,包括账单,话单及订购等等,而且市场营销人员对于数据的敏感性是非常高的,你取出来的结果跟他们的直接判断如果有较大的差异,就会要求反复核实,很多时候的确是沟通或取数中出现了问题。

笔者记得当时的主管派我去谈一个资费测算取数,对我来说,这是一次旅程碑式的取数,因为自己是第一次面对市场部的主管和品牌经理,面对几十张测算表格,每个表格人家都会问基于这个口径能不能取,要多长时间才能完成诸如此类,笔者还是顶住了。

准确的取数能力就是营销决策的生产力。

笔者有很多年的取数生涯,现在则有机会带着一只年轻的数据团队去做更多的事情,而疫情期间的数据支撑,则算是一次取数的大考,牛鬼蛇神,大家都拉出来溜溜。

而这期间发生的事情,则让我重新反思取数的价值,特别是关于取数人才的看法,这也是我写这篇文章的原因。

中移信息技术最近发了篇公众号文章《中国移动:发挥大数据优势支撑疫情防控精准施策》,提到中国移动按照工信部统一部署积极发挥通信行业大数据优势,着力加强大数据分析,开展疫情态势分析及预警预测,支撑疫情防控科学决策和精准施策。

“第一,加强统筹协调,组建疫情防控大数据分析支撑团队。成立超过300人的集团、省公司联合保障团队,严格7*24 小时大数据分析应急值守。第二,夯实技术基础,强化智慧敏捷响应。运营全网集中化大数据平台,实现对全网信令数据的统一采集、分析处理,确保大数据分析安全、及时、准确、可靠;打造智慧中台,截至目前敏捷响应各级政府部门400 余次数据分析需求….."中国移动副总经理简勤这么介绍。

自己有幸参与其中,在《面对疫情,理性的思考,我的生活和工作更要继续!》一文中也曾经讲过自己团队的支撑情况:“累计投入超XXX人天,多位同事连续多日通宵奋战,多位骨干人均每日支持时长超18小时,有效保障了业务连续不中断,疫情数据及时交付……” 这也是中国移动各省公司所有大数据团队的一个缩影。

但要把数据支撑工作做好其实很不容易,因为在关键时候,需求往往是模糊的,但对数据的及时性、准确性要求又特别高。

它会打破一切的所谓的规矩,比如为了保障数据质量制定的机制和流程,每个取数者要面对的就是白刃战,为最终数据的准确性负责。

“必需在20点交付、必需在22点交付、必需在2:00交付,必需在4:00交付……",这些命令对于一个管理者来说是很慌的,你现在唯一能依靠的就是你的团队和成员,只有他们才能对抗不确定性。

而团队中的取数大师就像一把玄铁剑,最关键时刻总是能够一锤定音,准确的理解业务意图,朴实的把数据准确的取出来,帮你渡过难关,这是笔者在这次“数据会战”中很大的感受。

在大数据创新如火如荼的今天,现在一提到大数据首先想到的大概是数据分析师、算法工程师、研发工程师、产品经理这些有光环的岗位,伴随这些岗位的都是是金字塔式的PPT、高大上的算法、牛逼的计算引擎、炫酷的产品、宏大的数据工程等等。

那些只会取数的数据从业者似乎都要被遗忘了,甚至笔者这么一个取数出生的管理者,做了大数据以后也开始会想:取数成就不了一个职业,取10000个数还不如写个数据分析报告有用。

沧海横流,方显英雄本色,每一个管理者都会在困境中重新领悟这句话的真谛,到底谁是数据团队的中流砥柱?

取数大师应有一席之地。

术业有专攻,笔者并不觉得其他岗位有什么问题,而是觉得在大数据创新的过程中,我们对于取数这种基础工作可能有了些忽视,倾向于做看得到的东西,而忽视了看不到的东西,在资源有限的情况下,这种问题会变得越发明显,长期以往则会动摇数据团队的根基。

那么,为什么取数对于企业如此重要?

因为取数(报表也是取数的一种)是企业运营的一个基础,为了维持企业正常运转,再小的企业也需要做出四张报表:利润表、资产负债表、现金流量表及所有者权益变动表。如果企业要做营销,还必须通过取数来做营销分析、监控和评估,诸如此类太多了。

我们也许可以不需要BI、数据分析、数据产品甚至数据平台,这些都是从1到N,而取数决定了能否从0到1。

即使再从1到N的过程中,取数也是所有BI、数据分析、数据产品乃至数据平台的基础。

这个基本面决定了大多数的数据从业者实际都在从事取数的相关工作。

取数的挑战又在哪里?

当然是千方百计来确保数据准确性(一致性、及时性等等都算是),因为数据只有准确才能反映现实,才能满足洞察、决策、营销、风控等等的需要,否则就失去了意义。

如何保证取数的准确性?

平台、机制和流程固然重要,但应该由谁来制定这些机制和流程?谁来执行这些机制和流程?在机制流程无法适应的情况下谁来应对取数的不确定性?

企业有报表不假,但面对变化的市场,更需要的是定制化的取数,而要提高这些取数的质量,则需要有人能够真正理解业务的意图并把这些数据准确的提取出来。取数大师,则能够攻坚克难,在关键时刻发挥出巨大价值。

比如在上下游数据、省市数据、业财数据不一致的时候来解决问题,比如在疫情保障、机器宕机时刻能够沉着的写出脚本快速出数。

如果一个团队的取数能力强,数据质量其实不会是很大问题,很多时候鸡同鸭讲说不清楚,往往是因为大家都是半桶水而已。

我们建了那么多的数据质量管理机制和流程,有时候不如安排一个取数大师来的那么有效,取数大师最能适应不确定性。机器也许能帮你自动完成80%,但剩下的关键的20%还得靠人。

为什么会忽略取数人才?

因为取数现在成为了企业运营的基础设施,就像水、电、煤一样普及,平时看不见就是最大的业绩。

取数者每天做的都是承上启下的工作,技术领导面上看到的是技术突破或者系统上线,业务领导看到的则是业务量和收入,而取数人员的交付物既不是技术,也不是业务,而是中间的一堆数据,中间数据没法对外发出自己的声音。

取数能成就一门职业吗?

笔者现在的观点是:简单的取数无法成就一门职业,但取数大师可以。

一件事情再不起眼,只要需求在哪里,你做到极致就有稀缺性,取数大师满足这两个条件,因此可以成就一门职业。以前笔者不太认可一直反复的做取数,是因为大多数人对于取数这个工种认知低了,做了2年就以为到了天花板。

但由于取数的行业特性明显,因此光会取数的取数大师对外的竞争力不强,因为取数对于纯技能要求不高,它的稀缺性是针对所在的行业和企业说的,离开了这个背景,取数大师积累的系统、数据、人脉、业务优势就大打折扣了。

即使你没有意愿成为取数大师,但作为数据从业者,也应该去了解取数,通过取数去培养数据的敏感性,这对于你从事其他数据类的岗位是有很大帮助的。有句话说得好:没有经历过取数的数据从业者,不是完整的数据人生。

那么,什么样的人可以称得上是取数大师?

关于取数的话题笔者写了很多文章,在《刻意练习,如何成为一名取数大师》一文中曾经解释过如何成为取数大师。

取数技能可以分解成业务理解、数据理解、系统理解、业务与数据映射、人际沟通、代码编写、工具使用、输入输出等组成部分,只有针对每个环节进行反复的练习及有效分析,针对不足之处进行专项提升,才能建立起强大的心理表征能力。

接到一个取数需求,新人看到的是一堆文字描述,取数大师看到的是从业务术语表达出来的业务种类,每个业务种类对应的数据类别体系,每个数据类别体系能支撑的指标体系,不仅如此,大师还能一下看出这个需求有哪个点是某个数据类别体系不能单独支撑的,必须基于数据类别的交叉关联才能支撑,甚至更深一层,这个需求不是由当前的数据类别体系支撑的,必须映射到源系统的数据类别,层层深入。

在几秒中之内,取数大师就能判别这个需求能否支撑,有哪个点是存在歧义的,需要业务人员进一步澄清的,这个需求的支撑的难度如何,大概要花多少时间等等,取数大师甚至能够猜到业务人员的真实意图是什么,从而可以为业务人员提出更好的取数建议。

胸有成竹这句成语就是强大心理表征能力的体现,提高水平与改进心理表征是相辅相成的,两者不可偏废,随着水平的提升,表征也变得更加详尽和有效,反过来使得人们可能实现更大程度的改进。

取数大师实际就是数据领域的工匠,其专注于某一行业、针对这一行业的数据加工过程全身心投入,精益求精、一丝不苟的完成整个工序的每一个环节。

关于取数笔者还写过《如何避免成为一台取数机器?》、《BI取数者的职业发展之路?》、《为什么BI取数这么难?》等系列文章,很多观点现在看来还有些矛盾,大家可以自己体会。现在高大上的平台、算法、产品等文章满天飞,但更能反应数据基本面的取数话题则寥寥无几,说明了一定的问题。

管理者只有沉下心来,深刻反思很多数据问题所以发生的本质,才能清晰理解取数大师的真正价值,才能有意识的去培养取数人才,从而把数据的基础工作做的更扎实一点,也才能让上游的各类其它角色过得更舒服一点.

文章分享自微信公众号:
张俊红

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2020-02-19
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 数据分析必备思维之:目标思维

    前几天写了一篇数据分析思维的文章,反响不错。我决定再写一些数据分析思维方面的文章。

    数据森麟
  • QQ空间(日志、说说、个人信息)python爬虫源码(一天可抓取 400 万条数据)

    爬虫功能: QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判...

    小莹莹
  • QQ空间(日志、说说、个人信息)python爬虫源码(一天可抓取 400 万条数据)

    爬虫功能: QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息。 判重使用“内存位”判重,理论上亿数量级的QQ可瞬间判...

    机器学习AI算法工程
  • 微信直播聊天室架构演进

    聊天室概述 ---- 随着直播和类直播场景在微信内的增长,业务对临时消息通道的需求日益增长,聊天室组件应运而生。聊天室组件是一个基于房间的临时消息信道,主要提...

    腾讯技术工程官方号
  • 微信团队分享:微信直播聊天室单房间1500万在线的消息架构演进之路

    本文由微信开发团队工程师“ kellyliang”原创发表于“微信后台团队”公众号,收录时有修订和改动。

    JackJiang
  • 性能百万/s:腾讯轻量级全局流控方案详解

    全新的全局流控实现方案,既解决了目前流控的实现难点,同时保证运行稳定且流控准确的前提下,实现更简单,部署成本更低,容灾能力更强。 该方案组件化之后,可以推广到别...

    WeTest质量开放平台团队
  • MySQL半同步复制的数据一致性探讨

    MySQL是一个RDBMS(关系型数据库管理系统),由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。由于其体积小、速度快、拥有成本低,尤其是...

    腾讯大讲堂
  • Redis集群详解

    z轴:优先级、逻辑再拆分。比如说某个模块数据过多,可以拆分为多个Redis客户端,全量数据分为多份,每个Redis中存一部分数据。

    星哥玩云
  • 哈希算法原来有这么多应用场景!

    这些定义和要求都比较理论,可能还是不好理解,我拿MD5这种哈希算法来具体说明一下。

    JavaEdge
  • 哈希算法原来有这么多应用场景!

    这些定义和要求都比较理论,可能还是不好理解,我拿MD5这种哈希算法来具体说明一下。

    JavaEdge
  • 机器学习笔试题精选(五)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

    红色石头
  • 数据团队的构成

    康威定律说:“设计系统的架构受制于产生这些设计的组织的沟通结构。”通俗的来讲:产品必然是其(人员)组织沟通结构的缩影。这个定律是比较靠谱的。我给你举个自己的例子...

    用户1564362
  • 机器学习萌新必学的Top10算法

    Spark学习技巧
  • 机器学习Top10算法,教你选择最合适的那一个!

    本文共3800字,建议阅读6分钟。 选什么算法?本文为你梳理TOP10机器学习算法特点。

    数据派THU
  • 机器学习萌新必学的Top10算法

    导读:在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。

    华章科技
  • 机器学习萌新必学的Top10算法

    在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。 ? 比方说,神经网络不见得比决策树好,同样反过来也不成立。 最后的结...

    量子位
  • 敖丙我写了一个新手都写不出的低级bug,被骂惨了。

    因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)。

    敖丙
  • 性能百万/s:腾讯轻量级全局流控方案详解

    全新的全局流控实现方案,既解决了目前流控的实现难点,同时保证运行稳定且流控准确的前提下,实现更简单,部署成本更低,容灾能力更强。

    WeTest质量开放平台团队
  • HashTable哈希/散列表

    不管是散列还是哈希,这都是中文翻译的差别,英文其实就是 “Hash” 。所以,我们常听到有人把 “散列表 ” 叫作 “哈希表”“Hash 表 ” ,把 “哈希算...

    羊羽shine

扫码关注腾讯云开发者

领取腾讯云代金券