专栏首页数据分析1480(一)拨开生活中的数字迷雾,警惕数据的陷阱

(一)拨开生活中的数字迷雾,警惕数据的陷阱

数据是客观的,但数据的搜集和解释是带着目的的,是主观的。同时数据也总是不完整的,只代表了历史,而且只是事物的某一个片段,同时数据会随着时间和空间的变化而所传达的信息有所变化,数据中承载的信息是有限的,不可能支持无数的故事叙述,我们一直希望从数据中可以找出些什么模式、而实践是检验数据的标准,但同时我们也需要对数据保持者严谨和怀疑的态度。

源头如果错了,一切全错,越走越远......

1、数据目标陷阱

(1)选错目标群体

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响。真的是这样吗?原来,这个 “1%” 的分母不是“有资格休假的父亲”,而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假,调查得到的数字也只不过是 5%。

2、数据设计陷阱

(1)样本量不足——以偏概全

最准确的数据集不仅要很大,还要很广泛。如果一个地质学家要调查一个沙漠的地址类型,那么在沙漠的不同地点收集一些数据,要比在同一个地点收集1000个数据更准确。如果你限制数据集的规模,就可以显著地影响调查结果。

我们经常在广告里听到,因为使用某品牌牙膏,牙齿美白度增加20-30%,可实际上,广告所给出的数据并没有告诉我们调查的细节,经过跟踪发展,所谓的数据样本只是针对12个人做的调查。

小明抛了5次硬币,4次出现正面,1次出现反面,于是小明说抛硬币出现正面的概率为80%,以后跟人抛硬币打赌都选正面,这是对的么?

比较小的学院在做研究项目时,经常会错误地把控制集的调查结果与普遍结果划等号。这可能是因为院校水平在做研究时,没有办法针对广泛、随机的城市人口进行调查,而是更多地面向大学生人群。同样地,只要把这种情况说明就可以了,但是一些新闻机构为了发表耸人听闻的报道,就会将细节模糊化,利用院校水平的调查结果来以偏概全。

之所以样本量过小会影响结果,可以从这两点分析:随机性和异常值。所谓概率事件,表明事件出现的可能性会围绕概率值出现不确定的上下波动,但总体与概率趋于一致。单次事件是具有随机性的,样本量过小时,会被随机性深深地影响;关于异常值在不同样本量数据中的影响。

(2)样本缺乏代表性——选择性抽样

抽样调查的样本如果不具有代表性,得出的结论无法代表整体的实际情况。刻意安排样本的构成,可以操纵抽样调查的结果。

1936年美国大选,当时有超过两百万订户的流行杂志《文学文摘》做了一个候选人支持率调查。《文学文摘》共寄出了1000万份问卷,回收237万份。这应该是人类历史上有据可查的规模最大的抽样调查,当时美国人口不过1.3亿,有投票资格的人不过4000万人。根据中心极限定理,样本越大结果越逼近真实,这种规模的抽样调查,其结论的准确性应该基本等于大选结果,所以《文学文摘》对自己信心满满。

然而,最终的选举结果令人大跌眼镜——《文学文章》预测胜选的兰登以8:523的悬殊差距输给了罗斯福。杂志的声誉也因此一落千丈,没多久就黄了。

《文学文摘》寄出去的1000万份问卷,主要有三个选择标准:第一是汽车登记,第二是俱乐部信息,第三是电话黄页,通过这三个方式可以比较方便地获取收件地址。问题是,拥有汽车的是什么人?有钱人。俱乐部会员是什么人?有钱人。那个年代有电话的人是什么人?还是有钱人。罗斯福的新政,损害的是有钱人的利益,有钱人自然不支持罗斯福。这样选择样本做调查,最终得出的结论并不能体现4000万选民的整体意愿。

某公司要调查产品满意度,而且打算公开调查记录以示公正。在选择样本的时候,该公司调出购买了产品用户的消费记录和用户信息,综合考虑后,选择了一批收入和消费水平高、好评率高、退货率低的用户作为样本进行满意度调查,并在调查时赠送精美礼品。最终得出的结论是该公司客户满意度极高。接下来该公司的广告主打“本产品在大类里消费者满意度排名第一”。

根据用户的消费习惯、生活地域、性别、生活阶层,人为安排抽样样本的构成,从而操纵调查的结果,进而用这个结果误导更多的人,这样的操作屡见不鲜。

(3)样本缺乏代表性——幸存者偏差

一个小故事:二战时军方对战机损毁的原因进行分析得出机翼受员是造成飞机损坏的最重要原因,然后展开行动改进机翼以求减少飞机的损毁,但收效并不明显,为什么?真正的原因是由于数据抽样不正确:受损分机简单可以分为两类,一类是受损后仍可以返航的;另一类是受损后无法返航的;而用来做统计的分析来自于第一类数据,即能够返航的飞机,而严重受损无法返航的却未被计算在内,有缺陷的数据源,“说谎”的结果。

不完整的抽样数据源,所得出的分析结果自然会出现偏差。正如做发布软件稳定性分析时候,统计数据的来源往往只会来自于某些经常往来的客户,并且是那些相对来说很严重的问题反馈,片面的数据收集使得数据结果并不能真正的反映软件运行情况,只能是参考或是添加其它变量辅助分析。

某公司在员工论坛开设留言板,员工可以匿名发表评论。经统计,留言板的内容里对公司不满发表意见的占比高达63%,由此推测该公司员工满意度较低。实际上,如果一个人心里有意见,可能会更倾向于在留言区吐槽,而且这还是不需要负责任匿名评论。如果一个人对公司很满意,他可能未必会去留言板给领导点赞,同时如果大家知道虽然是匿名,但有可能系统还是会记录自己是谁,结果又可能会不同。因此,以留言板上内容的比例作为判断样本,结果会出现失真。

(4)样本缺乏代表性——诱导与干扰

干扰被调查者的思考

问卷A是这么问的:“1.你是否人为人的自由是宝贵的?2.你是否认为政府不应该过分干预人的自由?3.你支持全面禁烟吗?”

问卷B是这么问的:“1.你是否赞同吸烟有害健康?2.你是否同意政府有责任保护公民健康?3.你支持全面禁烟吗?”

如果最终关注的只是第三个问题的答案,这两套问卷统计出来的结果肯定差别很大。

还有其它的干扰手段,导致被调查者不知道如何回答,失去耐心,敷衍了事,故意隐瞒。

迎合调查者的意愿

被调查者往往会迎合调查者的意图而给你一个满意的答复,很多时候,只要样本的趋势偏于和所要达到的目的相一致的一方,就能起自动操纵的作用。

二战时期,美国国家民意调查中心派出两组调查人员,向一个南方城市500名黑人,调研提问3个问题,一组调查员是白人,一组是黑人。其中一个问题:如果日本征服没过,他们对待黑人会更好些,还是更坏些,

黑人调查员调查结果:9%-更好;25%的黑人认为将受到更坏的待遇

白人调查员调查结果:2%-更好;45%的黑人认为将受到更坏的待遇

这种即是由无形因素造成的偏差,看来实际的因素是被调查者往往会迎合调查者的意图,而给你一个满意的答复,这是在阅读任何民意调查结果时,都必须十分注意的问题。在战争时期,对于一个隐含着对国家不忠的提问,一个南方的黑人回答白人调查员的尽是一些冠冕堂皇的话,而不是他实际相信的东西,这难道有什么值得奇怪的吗? 另外不同的调查员也可能去找不同类型的人去交谈。

(5)不平衡的数据集合

一面向大家提供很多细节,一面巧妙地撒谎。其中的小技巧就是把那些其实并不能相提并论的数据放在一起比较。例如,如果你把一座原有100000人口、10年内新增加10000人口的大城市,和一个原本有10个人、10年内增多了10个人的小城镇比较,那么就可以说小城镇人口增长更快。

有时候做市场调查的人会利用这个技巧来对销售数据做出误导。例如你要调查苹果和橘子的销售量,但是调查到一半,发现橘子由于存货不足卖光了。如果你继续比较接下来的销售数据,那么苹果的销量就会远远高于橘子,即使苹果并没有真的变得更流行。

3、数据获取陷阱

(1)数据来源失真——数据僵尸粉

广告费结算方式上,行业的水很深,数字营销陷阱到处都是。例如多数广告公司以CPM(千人展现率)/CPC(点击率)/CPA(安装率)作为广告结算方式。一些不专业的广告公司在广告投放时,会选择将一些广告发送给刷流量的公司,这些刷流量的公司雇佣了上百名员工,每个人面前几十台智能设备,每个智能设备上面安装了很多个相同App,工人的工作就是不停地点击App来接受广告或者点击安装App。如果没有技术障碍,这些专业的公司还可以通过脚本来执行上述操作,在很短的时间内就可以完成千万用户的广告推广或移动App的安装,其广告推广成本非常低廉,而客户付出广告费却十分高昂。

但这些虚增的点击率并不会转化为实际的收益。

(2)数据来源失真——技术比较落后

在电视收视率的统计中,长期以来采用了样本采集的方式,在样本的选择上容易人为地操作,导致原始数据的误差。 随着“三网融合”的推进,电视逐步实现数字化和网络化。评级统计机构可以优化和更新统计方法。例如,双向交互式机顶盒用于收集用户的查看信息。OTT互联网电视可以将点播数据和延时观看数据纳入收视率统计。当数据丰富真实时,它可以更好地为电视广告主和制片人服务。

(3)数据来源失真——渠道不可信

如果引用公共的数据,我们一定要选择权威来源的数据,比如上市公司财报、政府公开数据、企业平台报告、数据服务行业权威报告,即便如此,数据中潜藏的陷阱我们仍可能无法完全获取到。很多报告中的数据并不公开,数据是如何采集的,这让我们的判断增加了很多的难度。我们可以看历史的可信度,寻找证据支持。好的文章都会给出数据来源与引用,那怕会被质疑。没有给出数据参考或来源的文章我们都有理由质疑数据的可信度。

(4)数据来源失真——恶意修改数据

为了达到自己的特定目的,刻意修改数据,行为比较恶劣,这类行为不做过多的阐述。

(5)干扰数据采集——有倾向性的诱导

在调查中暗示立场,是非常令人讨厌的行为。其他的数据源问题,可能是由于方法不恰当、操作有误等原因造成,而调查者在统计调查中通过各种方式暗示被调查者,是赤裸裸的别有用心。保持冷静和客观是调查者很重要的操守。

在问题中预设参照环境

想要调查小学里愿意当医生的孩子的比例,调查者决定派一个温柔美丽的小姐姐去。小姐姐貌美如花,笑脸盈盈,轻声问:“小朋友们,我们都知道医生是人间的白衣天使,大家长大了想不想当一个医生啊?”

但是在公布调查结果的时候,可没人要求调查员专门留一段说明调查员是个什么样子的人,也不会要求调查员写清楚小姐姐问问题的具体过程。

(6)干扰数据采集——暗示性的答案

提问的语言要保持中立,表述要客观,词语中不应带有暗示和倾向性,更不应该在提问中表露调查者的观点,引导被调查者形成某种思维并作出某种选择性的回答。比如“人们普遍认为海尔家电服务质量较好,你认为呢?”,其中的暗示作用已经非常明显,如果不是有特定的目的,应该把这个问题改为:“你觉得海尔家电的服务质量如何?”

(7)隐藏部分数据——不想纰漏的数据

经过技术的手段,过滤、隐藏、变幻部分真实但又不想纰漏的数据,从而达到特定的分析目的。

把沉默用户当做支持和反对的中间态

2家网站A和B,都经营类似的业务,有稳定的用户群。它们都进行了类似的网站界面改版。改版之后,网站A没有得到用户的赞扬,反而遭到很多用户的臭骂;而网站B既没有用户夸它,也没有用户骂它。如果从数据来看, 应该是网站B的改版相对更成功, 因为没有用户表达不满。

cydia商店但事实并非如此。网站A虽然遭到很多用户痛骂,但说明还有很多用户在乎它;对于网站B,用户对它已经不关心了。网站A指的是Facebook,网站B是微软旗下的Live Space。

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深入浅出 Kubernetes:StatefulSet 概念理解

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    耕耘实录
  • 年终PPT不求人,必备PPT模板网站

    自从踏入工作之后,感觉时间过的非常快,再过几个月就过年了,临近年终各公司都在准备各种总结,计划,汇报PPT等,遇到PPT很多人有开始犯愁了,因为不会做,所以今天...

    PPT爱好者
  • Linux下自建CA的实现

    vhost1: pma.stu13.com, phpMyAdmin, 同时提供https服务

    二狗不要跑
  • 前端安全之XSS和csrf攻击

    csrf攻击(Cross-site request forgery):跨站请求伪造;

    IT人一直在路上
  • web移动端适配方案实践

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    csxiaoyao
  • WebAssembly的初步了解

    2017年2月28日,四大浏览器,IE,FF,Chrome,Safari宣布达成共识,即 WebAssembly 的 MVP (最小化可行产品)已经完成。大约一...

    javascript.shop
  • (开源)GB28181国标流媒体服务前端-直播点播播放器组件搭建及使用

    https://github.com/livegbs/GB28181-Server

    Marvin
  • rabbitmq学习笔记

    建议看下美团分享的rabbitmq基础:http://mp.weixin.qq.com/s/OABseRR0BnbK9svIPyLKXw

    二狗不要跑
  • 前端和后端交互的方式

    注意在使用ajax提交form表单时,提交按钮应为type=“button”,然后为其绑定点击事件,而不应该为type=“submit”,因为submit按钮会...

    IT人一直在路上
  • shell-编写shell脚本所需的基础语法

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    yoylee_web

扫码关注云+社区

领取腾讯云代金券