前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >围观花式撒谎的九大数据型套路

围观花式撒谎的九大数据型套路

作者头像
1480
修改2019-08-15 10:58:09
4830
修改2019-08-15 10:58:09
举报
文章被收录于专栏:数据分析1480数据分析1480

还没关注?

快动动手指!

一本敏捷的书说到,自从使用Scrum之后,团队生产力提升了60%。用百分率,是标准的吹牛逼仪式,看来我是遇上对手了。

一般来说,这种没有明确可衡量标准的结论,不起推敲,也经不起连续提问。

首先问:是不是。偷换概念是非常容易的,一般人注意不到,尤其是在专业领域。常规地关注对象(人/物)、时间(前/中/后)、空间(环境背景)、事件(what)是否完整客观。60%的衡量计算标准是什么?

接着问:为什么。阅读中保持独立思考能力,敢于质疑。首先对一些基本概念要有认知,《人月神话》很恰当地把工作为分智慧密集型与劳动力密集型,研发属于智慧密集型活动,难以短期内通过人力或流程大幅度提高效率。如果是真的60%提升,那之前做的到底是有多差劲。

之前在公司内部做过一期数据思维分享,有一部分是提防数据撒谎,遂重新整理成文字,共九点罗列如下。雕虫小技,丢人现眼。

1.数据来源与采样

看到一份数据,首先警惕数据来源,凡是数据一定有采样率,一手数据或二手数据,来源是否可靠客观全面

相对靠谱的数据来源有很多,如下

  • 企业平台报告(淘宝电商、微信社交等只放出了私聊范围内的数据,聊胜于无)
  • 数据服务行业报告(艾瑞、易观 不清楚这么多的行业报告数据是怎么收集的,有了解的请留言告知。还有些连各国内外宏观数据都有)
  • 政府公开数据(国家统计局① 中国汽车流通协会②等)
  • 上市公司财报(A股的财报说 就非常实用)

一般的问卷数据就算了,问卷从问题设计可能就已经偏离调查意旨,更别说在人群抽样环节了,那怕直到数据报告输出,想操纵结果,都有无数的机会。

好的文章都会给出数据引用,那怕会被质疑。凡是没有给出参考,没有数据来源说明的报告或分析都是耍流氓。

2.偷换概念混淆

有了数据,接着则需要做聚合,用一些数据概念来描述总结量或趋势。常用的数据概念有:最大值、最小值、九分位值、平均数、中位数、众数;标准差、方差、期望;比率;同比、环比;科学计算相关等等。

首先得知道分别是什么意思,并且清楚适用的场景。太阳底下无新鲜事,没有什么比较谣言更容易传播了。10+万的标题党出现的平均年收入,稍做二八分析(百分之二十的人,掌握了百分之八十的财富)就明白我们是给平均数拖了后腿的。但实际上,随着全球化以及经济发展,贫富差距一定会越来越大,Oxfam报告说已经是前1%的富豪,掌握了80%的财富。

3.故意漏掉了什么

常听到的是我国GDP总量全球第二,仅次于美国,但新闻联播可不会说的是,我们人均GDP仅为美国的15%。哪个概念才跟老百姓息息相关呢?哪个在我们心里才是最重要的呢?

类似的报喜不报忧手法还有不少,量少,则用比率;增量不足,则用总量;总量不够,则用同比;旺季同比不足,则用淡季环比。

以我的开源项目 walle-web.io 的 github star 为例,总用户趋势还是很漂亮的,尽管新增用户在下跌(不要替孤担心),我不把后面的数据放出来,会有几个眼尖的能看到?

4.单个概念代替复合概念

但现实情况,往往一个概念或指标是无法表述清楚的,描述一个事实需要多个维度的数据,才能立体呈现。想掩盖一个事实的最好方式,莫过于不要暴露。给出的数据指标越多,信息就越全面,即需要多个概念或加权概念来描述。

比如用平均数均价来描述某城区的房价,就是不合理的,极值很可能是离群值。而应该使用中位数乘数(Median Multiple):房价-收入乘数,即该城市房价中位数 / 该城市每户居民税前年收入的中位数。这一指标被世界银行以及联合国推荐使用,以评估城市房地产市场。

摘取研究机构 Demographia 2017年《全球房屋负担能力调查报告》③其中一个数据,感受下中国香港凌驾于其它地方的房价压力。

5.有图不一定有真相

图依靠视觉,非常直观,直观到让人太容易相信眼见为实。分别看下面三组图,A、B哪个更长,当然你知道我会用相同长度的A和B做对比。

6.看着理所当然的XY轴

最初级的手法,更改X轴Y轴的起点,就可以改头换面。当你的产品是C时,这一招悄无声息,只需要修改Y轴的起点,简直是神一样出装。同样,XY轴的取值间隔一样可以玩出新招式来。

7.变形

太没技术含量了,不展开。

2018年 荣耀 V10 发布会

8.错误归因

不合时宜地错误归因,往往不是智商捉急,就是别有用心。以辛普森悖论为样例展开。

辛普森悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。“聪明”的数据分析师得出结论:IOS平台的用户付费转化率低下,建议放弃IOS平台的研发。④

这么不符合常识的结论,直到数据拆分出来之后,一切都解释清楚了。到底悖论出现在什么地方?手机和平板两组数据是可加的啊!?

普森悖论有个非常明显的数据特征,两组数据可加,但A组Y种类量小而百分率高,而B组X种类量大百分率低,尽管Y在每组类型数据中比率都比X高,但会在最终合计上的比率会X低。

通俗易懂说来,两组数据基数差距大,数值与比率合一计算,但结果相反,原因在于忽略了加权。那么问题来了。

  • 到底Android和IOS哪个转化率更好?
  • 合计的加权公式应该是什么?
  • 普森悖论经常会出现在什么场景中?

我还能想到的其它一些错误归因类型,简单列举如下。

  • 因果倒置
    • 没想好例子: (
  • 幸存者偏差
    • 二战中给飞回来的飞机增加防护板

9.脱离逻辑的神扯淡

都到了这,得见识下真正实力了,吹牛逼的奇葩与巅峰。可以把两个风马牛不相及的事件,通过数据近乎完美阐释他的论点,而且创意十足。

两条线是不是非常贴近,但这两条线分别表示每年掉到游泳池淹死的人数,和尼古拉斯·凯奇出演的电影数。在逻辑上没有任何关联的两个事件,R值(相关度)可以高达66%,还有很多这样的案例,R值超过90%,具体在「那些惊人相似的趋势图」⑤。

从数学的角度来讲,这是再正常不过了,这就是「维度的诅咒」。维度在数学上亦变量,变量太多,数据太少,就很容易出现假的相关性。上面例子从99年到09年不过11年,在万千事件中找到11个数据点与之相似的,从概率上讲就是大概率事件,正如无限大猩猩也能写出哈姆莱特。

从相关性,我想到了拟合,拟合即通过数学方程式,描出与现有数据吻合的曲线。这不禁让人想到冯·诺依曼的名言,后因费米传开而闻名。

用四个参数我可以拟合出一头大象,而用五个参数我可以让它的鼻子摆动

四五个参数就可以高度拟合出动态大象,两个逻辑不相关的事件,可以通过数据描述成高度相关。数学真是亦魔鬼亦天使,在天才手里就能创造神迹,反之,堕落成障眼法的小把戏。以至于让人怀疑什么才是真相,信息永远存在不对称,没有100%的真相

10.结硬寨 打呆仗

正如中国武术一样,练武为了强身健体,保护自己。认识这些伎俩是为了不被忽悠,而不要用这些小花招。数据的价值远非一些简单的特征、趋势所能呈现的,不必迷恋雕虫小技,还有深入的知识和应用等待探索。

所谓重剑无锋,大巧不工,价值才是王道,自身的价值和创造的价值,是让自己永远立于不败之地之根本。每个具体的垂直领域,都有着独特的专业性,加之经济学,心理学,同时警惕数据至上陷阱,敬畏前行。吾生也有涯,而知也无涯,共勉。

参考:

① 国家统计局 http://data.stats.gov.cn/easyquery.htm?cn=C01

② 中国汽车流通协会 http://www.cada.cn

③《全球房屋负担能力调查报告》https://www.kiwiblog.co.nz/2017/01/13th_annual_demographia_international_housing_affordability_survey_2017.html

④ 有没有发现百分率数据有问题?

⑤ 那些惊人相似的趋势图 http://tylervigen.com/spurious-correlations

每天进步一点点:数据分析1480

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档