数据思维最重要的居然不是数据

TalkingData 首席布道师鲍忠铁在课程《从数据思维到数据资产变现》中讲述了自己从数据思维到数据运营再到数据资产变现的整个过程。

如果说要用一句话来总结一下我本课的收获,那应该是:数是死的,人是活的,数据思维的关键在于思维而不是数据。

数据的本质

首先我还是习惯性的从底层来思考问题,既然是讲数据,那就先从本质来讲起,而通过这个本质,就可以解决一些疑问,为什么现在企业那么重视数据?为什么企业领导天天喊着要用数据说话?为什么我们觉得数据不会说谎?

讲本质前,先卖个关子,话说当年秦始皇统一天下,他所做的改革中有一项影响是极其深远的,那就是统一了度量衡。为啥度量衡那么重要呢?

假设你是那时候的一个地主,手下几十户人家,请问你如何收税呢?

你可能觉得这个问题简单啊,不就是每户人家交多少公斤粮食嘛,但是那个时候别说没有公斤这个单位,就连统一的度量衡都没有,怎么计算呢?

当然,你也可以说,那就每家交自己收获的一个百分比,比如10%。但这样就意味着收成越多的人就要交的更多,积极性被打击不说,还会出现瞒报的问题。

那么有没有一个更好的方法呢?还真有,这个方法叫井田法,就是把一块土地划成九宫格,八户人耕种周围的八块地,中间的地大家一起,最后中间这块地的收成就是这八户人上交的税了。这个方法不用太复杂的技术,只要你能将一条直线三等分就可以了。这个方法在那时候是一种信息和监督成本最低,也能兼顾公平的方法。

但是这只是在小村庄可以,如果大到一个国家,这个方法就失效了,所以一个超级大国的建立,必须要有统一的度量衡才能保证它的正常运转。

而通过我说的这个例子,你就会发现,数据这么重要的本质在于它的统一性。

说一个人比另一个人业绩好,怎么形容呢?任何的形容词都不如数据来的直观,且让受众易于比较。

当然数据并不能完全展示一切,就好比前面说的,一个人比另一个人销售数据好,这并不能一定说明这个人的销售能力就一定比另一个强,但通过数据做判断这种方式,是一种成本最低,且兼顾公平的方法。

真实的谎言

都说数据不会说谎,那么是否通过数据就一定能得到真实的结果呢?

在讨论这个话题之前,我们必须要先来框定一下范围,那就是数据造假不在我们的讨论范围之中,而是说在数据真实的情况下,是否还有谎言的存在。

我先讲个例子,美国总统小布什当年提出过一个减税政策,根据小布什的说法,这一政策将惠及绝大多数的美国家庭。相关政府官员指出,在这项政策推行之后,将会有9200万美国人享受减税待遇,人均减税额超过1000 美元(具体数字应该是1083美元)。

但这个关于减税政策的概括准确吗?《纽约时报》评价说:“数据本身并没有撒谎,只不过有些数据没有发出声音罢了。”

是不是会有9200万美国人将享受减税待遇?答案是肯定的。

那么,这些人中的大部分人都可以少缴纳约1000美元的税款吗?并不是。因为 只有数量相对少的巨富们才有资格享受大额减税,而正是这些人拉高了平均值,让人均减税额看起来比绝大多数美国人真正享受到的要高。

就好像我和我以前的一位领导,我们在深圳人均一套房(背后的实情是他有两套,我没有),这数据绝对是真实的,基于数据的结果表述也没有任何造假,但你能说这种分析结果没有误导性和欺骗性吗?

背后的维度

真实的数据也会说谎,知道这个结果后,我们还是要回到前面所讲的一句话,数据思维的关键不在于数据而是思维。通过思维去发现数据背后的维度,才是大数据时代的关键。

失去了维度的数据,基本只会具有误导作用。

比如有一项研究表明,工作中经常中途休息的人,他们的健康会比那些不休息的人要差,这句话咋看上去毫无道理啊,休息反而损害健康,这听上去就不可思议。

可能很多人会认为这一定是造假了,或者就像我前面所举小布什谈减税的例子一样,滥用平均值等方法,而产生了误导。

但真实的情况是,因为这些休息的人,常常是因为要抽烟才停下工作去休息的,所以他们的健康会更差一点。

如果我们对于背后的原因一无所知,那么数据真的就只会让我们一头雾水。

那么如何能更好的探求到数据背后的维度呢?这个问题其实没法讲,因为不同的情况总需要不同的分析,没有任何方法是一招鲜吃遍天下的。

但对于这个问题我还是有一个心得,虽然不同情况要有不同的分析与方法,但只要明白一个底层逻辑,你多半时候可以避开陷阱,那就是:

相关性高≠因果关系

解释一下,A事件发生,总是会接着发生B事件,但这并不能证明A事件是B事件的原因。

我举个例子:

在我们平常看来,那些拥有健康生活习惯的人(比如按时运动、常吃绿色食品等)身体会更加健康,那么这是否能说明,某些活动(如按时运动)对健康有好处呢?

答案是不一定,因为能够做到按时运动的人,可能收入也相对较高,工作压力也相对较少,医疗条件也更好一些,而那些吃了上顿没下顿的人,就算按时运动,相比而言健康状况也不会好到哪里去。

所以千万不要用相关性的高低来衡量因果关系,这样得到的结果往往具有极高的误导性,这也是数据时代我们要懂的底层逻辑之一。

若有所思

从统一性的本质,到真实的谎言,再到数据背后的维度,我想说的还是那句话:数是死的,人是活的,数据思维的关键在于思维而不是数据。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181031G1RTKW00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券