前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用数据说谎How to Lie with Data

用数据说谎How to Lie with Data

作者头像
1480
发布2019-07-15 15:03:13
4040
发布2019-07-15 15:03:13
举报
文章被收录于专栏:数据分析1480

作者:Ahong

介绍:一个跨界的心理学专家

公众号:CrossHands

不管是前几年流行的手机安兔兔跑分,还是每年双11各家电商晒成绩——人们大概就像希望自己银行卡上的余额那样——越大越好——对“大”数字总是持乐观态度——数据出品方大概也知道大众不会关心这些数字是怎么计算出来的,输出的数字要成为大家的谈资才是更重要的。

用数据说话——数据思维在企业日常沟通中越显重要,大有“Talk is cheap, show me the DATA”之势,但实际上,某些场合下,数字成了装点门面的“饰品”,不管对不对、有没有用,放进报告里就能增强自信,更有甚者,明目张胆地耍数字把戏来误导大众。

通常来说,用数据说谎基本有如下套路:

  1. 样本选择,选择不具有代表性(不能代表总体)的特殊样本,样本应该在空间上和时间上都要有代表性;
  2. 数据采集,数据来源不靠谱,例如不是专业的人员采集、采集工具不对、方式不对,诱导他人等;
  3. 指标选择,滥用均值,虚荣指标等;
  4. 结论呈现,过度延伸结论,相关和因果不分,选择性展示结果,或者改变图表scale(让不显著的趋势看起来很显著);

1 样本选择

“如果想获得赞同,那就找到那些会赞同你的人”——拿不具有代表性的样本来说事通常都是耍流氓。

最常见的有偏样本是商业广告,其次是“幸存者偏差”。商业广告永远只展示好的那一面,“幸存者偏差”则只让我们看到经过层层筛选后剩下的优秀选手,而误以为他们身上的品质都是成功的必要条件(那些“沉默的被淘汰者”却常常被忽视)。

e.g. 高考状元代言补脑产品; e.g. “你看人家那谁谁,长年烟酒不离,照样活了90多岁”; e.g. 公众号文章下大多时候只放出对文章观点有利的留言; e.g. 战争时期,军队的死亡率低于城市居民,所以参军更安全?军队都是年轻力壮的年轻人呢,剩下的人群中的老弱病残则是拉升死亡率的主要因素; e.g. 问题的暴露性,打车遇到安全事件的概率整体是保持稳定的,只不过现在网络平台上更容易暴露出来,就像以前说农村得癌症的人少,就认为农村是很健康的,其实不是,过去的农村医疗条件和健康意识缺乏,很多人得了癌症但是没有去医院或者被当做普通疾病,后来医疗条件好了暴露就更多了;

破解方法:

  • 看样本占总体比例,少数不能代表大多数;
  • 看事件发生的概率,警惕美好而不可控的小概率事件(不要一厢情愿和自欺欺人);
  • 找事件的反例,然后找正例和反例的相似性,e.g.成功的人喜欢吹牛(例如马云),不过失败的的人也吹(贾布斯),可见吹牛和成功的关系并不大;
  • 如果涉及到对比,要看抽样的时间点、人群能不能匹配上,有没有可比性;

这里还要另外提一下,局部不能代表整体,整体也不能代表局部。

e.g. 辛普森悖论

e.g. 偏态分布(例如收入)中,“拖后腿”的弱势群体经常“被代表”(整体的数据),经济增长可能代表收入处于top5%的那群人增加了,实际上剩下的95%的收入都有下降

,只不过整体看起来是增长了。

2 数据采集

关于具身认知的“吊桥试验”告诉我们,心跳的感觉不一定是因为对方令人心动,而是当时的情境真的是让人心跳加速(吓死个人啊

)。

身处环境、社交面具(社会认同、社交礼貌等)、利益诱导等,都会让人变得不客观,所以这时给到的回答往往也不可信。

当然,做调研时可能人员都没经过培训、提的问题可能也经不起推敲。

“你觉得自己是个好人吗?” “填完这个问卷,将获得50元超市购物券”

破解方法:

  • 数据来源是哪?谁采集的?
  • 用的什么工具?靠谱么?
  • 怎么开展的调研?会不会引导调研对象?

3 指标选择

指标选择上常出现的Trick有:

  • 滥用均值,无视数据分布及28法则;
  • 绝对量和比例的误导;
  • 虚荣指标,有量无质;

滥用均值

样本中混入极端值,那就不要用均值(否则应该提出极端值)。

e.g. 如果富豪们都是农村户口,那么农村人均收入应该能上升很多。

e.g. 人均收入,不管是算行业、城市、应届生等,总会有大部分的人发现自己“拖后腿”了,因为收入是符合28法则的;

绝对量和比例的误导

e.g. 公众号关注人数,昨天有10人,今天新增10人,如果看增长率那就是100%,看着很好,其实一般。

如果基数很小的时候,报绝对量通常是更好的选择。一般基数很大的时候使用比例,e.g. 企业的销售额,去年1000亿,今年1200亿,说同比增加20%是可以的。

涉及到比例的时候还需要注意分子和分母各自的限定范围。

虚荣指标

虚荣指标通常的特征就是越大越好(满足虚荣心),然并卵,大都是有“量”无“质”,其背后往往都是“自定义的口径”,而不是行业公认的准确计算口径。

e.g. 没有一支球队能够在世界杯上击败中国队两次以上;

e.g. 双11电商晒成绩,预付、预热、退款前的都可能在里面;

e.g. app下载量、存量用户数,历史访问UV(甚至爬虫、刷量也在里面)等;

e.g. 营业额中有很大一块是在经销商的库存中,实际卖到消费者手中的产品并没有那么多;

破解方法:

  • 怎么算的?计算口径(公式)是啥?
  • 价值是什么?反应了什么问题,有何启示?

4 结论呈现

第一层次是选择性展示结果以及在数据可视化上动手脚,e.g. 只展示对自己有利或者符合预期的结果、改变坐标轴尺度、截断坐标轴起点等;

更多参考https://www.huffingtonpost.com/raviparikh/lie-with-data-visualization_b_5169715.html

第二层次是混淆相关和因果,e.g.我和一条狗都往同一个方向走,但不能说明狗子就是我的,我们只是顺路而已;

共变背后都有第三方的潜在因素,“时间”是最容易被忽视的潜变量之一。

区分因果和相关需要注意,归因的时候要注意区分充分必要条件,此外,大部分的因果关系是在“试验对比”下发现并验证的(没有对比就下结论的通常是在耍流氓)。

第三层次是过度延伸结论,e.g. 有个妹子表示对某男生有好感,但不能说这个妹子愿意和这个男生结婚,可能妹子只是想让这个男生帮忙辅导她某门功课

,简而言之,“想多了

”。

大众媒体并不是那么专业,毕竟粉丝数量不代表其发文的质量

更多参考 https://www.guokr.com/question/577066/

破解方法:

  • 相信常识,不为“怪、力、乱、神”所扰,大部分想“颠覆”常识的事情都是哗众取宠;
  • 找反例,理清楚充分条件和必要条件,吹?可能是成功的充分条件,但不是必要条件(马云和贾布斯);
  • 扩展视野,发现被忽略的因素,当信息被人别有用心地选择性展示的时候,一定要非常小心,没有展示出来的东西可能更重要;

更多参考:

https://www.zhihu.com/question/19578400

http://www.searchmarketingart.com/3-types-of-data-lying.html

https://www.huffingtonpost.com/raviparikh/lie-with-data-visualization_b_5169715.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档