作者:Ahong
介绍:一个跨界的心理学专家
公众号:CrossHands
不管是前几年流行的手机安兔兔跑分,还是每年双11各家电商晒成绩——人们大概就像希望自己银行卡上的余额那样——越大越好——对“大”数字总是持乐观态度——数据出品方大概也知道大众不会关心这些数字是怎么计算出来的,输出的数字要成为大家的谈资才是更重要的。
用数据说话——数据思维在企业日常沟通中越显重要,大有“Talk is cheap, show me the DATA”之势,但实际上,某些场合下,数字成了装点门面的“饰品”,不管对不对、有没有用,放进报告里就能增强自信,更有甚者,明目张胆地耍数字把戏来误导大众。
通常来说,用数据说谎基本有如下套路:
1 样本选择
“如果想获得赞同,那就找到那些会赞同你的人”——拿不具有代表性的样本来说事通常都是耍流氓。
最常见的有偏样本是商业广告,其次是“幸存者偏差”。商业广告永远只展示好的那一面,“幸存者偏差”则只让我们看到经过层层筛选后剩下的优秀选手,而误以为他们身上的品质都是成功的必要条件(那些“沉默的被淘汰者”却常常被忽视)。
e.g. 高考状元代言补脑产品; e.g. “你看人家那谁谁,长年烟酒不离,照样活了90多岁”; e.g. 公众号文章下大多时候只放出对文章观点有利的留言; e.g. 战争时期,军队的死亡率低于城市居民,所以参军更安全?军队都是年轻力壮的年轻人呢,剩下的人群中的老弱病残则是拉升死亡率的主要因素; e.g. 问题的暴露性,打车遇到安全事件的概率整体是保持稳定的,只不过现在网络平台上更容易暴露出来,就像以前说农村得癌症的人少,就认为农村是很健康的,其实不是,过去的农村医疗条件和健康意识缺乏,很多人得了癌症但是没有去医院或者被当做普通疾病,后来医疗条件好了暴露就更多了;
破解方法:
这里还要另外提一下,局部不能代表整体,整体也不能代表局部。
e.g. 辛普森悖论
e.g. 偏态分布(例如收入)中,“拖后腿”的弱势群体经常“被代表”(整体的数据),经济增长可能代表收入处于top5%的那群人增加了,实际上剩下的95%的收入都有下降
,只不过整体看起来是增长了。
2 数据采集
关于具身认知的“吊桥试验”告诉我们,心跳的感觉不一定是因为对方令人心动,而是当时的情境真的是让人心跳加速(吓死个人啊
)。
身处环境、社交面具(社会认同、社交礼貌等)、利益诱导等,都会让人变得不客观,所以这时给到的回答往往也不可信。
当然,做调研时可能人员都没经过培训、提的问题可能也经不起推敲。
“你觉得自己是个好人吗?” “填完这个问卷,将获得50元超市购物券”
破解方法:
3 指标选择
指标选择上常出现的Trick有:
滥用均值
样本中混入极端值,那就不要用均值(否则应该提出极端值)。
e.g. 如果富豪们都是农村户口,那么农村人均收入应该能上升很多。
e.g. 人均收入,不管是算行业、城市、应届生等,总会有大部分的人发现自己“拖后腿”了,因为收入是符合28法则的;
绝对量和比例的误导
e.g. 公众号关注人数,昨天有10人,今天新增10人,如果看增长率那就是100%,看着很好,其实一般。
如果基数很小的时候,报绝对量通常是更好的选择。一般基数很大的时候使用比例,e.g. 企业的销售额,去年1000亿,今年1200亿,说同比增加20%是可以的。
涉及到比例的时候还需要注意分子和分母各自的限定范围。
虚荣指标
虚荣指标通常的特征就是越大越好(满足虚荣心),然并卵,大都是有“量”无“质”,其背后往往都是“自定义的口径”,而不是行业公认的准确计算口径。
e.g. 没有一支球队能够在世界杯上击败中国队两次以上;
e.g. 双11电商晒成绩,预付、预热、退款前的都可能在里面;
e.g. app下载量、存量用户数,历史访问UV(甚至爬虫、刷量也在里面)等;
e.g. 营业额中有很大一块是在经销商的库存中,实际卖到消费者手中的产品并没有那么多;
破解方法:
4 结论呈现
第一层次是选择性展示结果以及在数据可视化上动手脚,e.g. 只展示对自己有利或者符合预期的结果、改变坐标轴尺度、截断坐标轴起点等;
更多参考https://www.huffingtonpost.com/raviparikh/lie-with-data-visualization_b_5169715.html
第二层次是混淆相关和因果,e.g.我和一条狗都往同一个方向走,但不能说明狗子就是我的,我们只是顺路而已;
共变背后都有第三方的潜在因素,“时间”是最容易被忽视的潜变量之一。
区分因果和相关需要注意,归因的时候要注意区分充分必要条件,此外,大部分的因果关系是在“试验对比”下发现并验证的(没有对比就下结论的通常是在耍流氓)。
第三层次是过度延伸结论,e.g. 有个妹子表示对某男生有好感,但不能说这个妹子愿意和这个男生结婚,可能妹子只是想让这个男生帮忙辅导她某门功课
,简而言之,“想多了
”。
大众媒体并不是那么专业,毕竟粉丝数量不代表其发文的质量
更多参考 https://www.guokr.com/question/577066/
破解方法:
更多参考:
https://www.zhihu.com/question/19578400
http://www.searchmarketingart.com/3-types-of-data-lying.html
https://www.huffingtonpost.com/raviparikh/lie-with-data-visualization_b_5169715.html