学习
实践
活动
专区
工具
TVP
写文章

统计学教你识破一本正经的胡说八道

数据分析可谓当下热门,同时对你我都息息相关。你看做个产品,要看看用户数据,做个运营,也要关注关键指标。人工智能近几年的飞速发展,也得益于有大量数据的训练。数据分析可以说是很重要,如果你没有用数据说话,那我很可能就不相信你的话。

然而当我们过分相信数据时,还是要留意一个问题,我们不能仅仅关注数值的准确性,还要思考这些计算是否准确

何时相信,何时怀疑

人有一种倾向是相信计算机,觉得只要往计算机输入数据,它就能给你正确答案。计算机运算准确自然不必说,但问题在于你「喂养」它的数据,很可能是有问题的。比如你要得到关于「猫」的数据,但无意中却输入「狗」的数据,那最后的运算结果可能就会误导你。

你说「我可不会犯这种低级错误」,但你很可能犯一些你自己都没有意识到的错误。其实,你往机器里输入的,都是历史数据,不可能是未来的数据吧,那从历史数据中总结出来的结论,是可以很好的吻合过去的情况,但却难以对未来提供准确的预测。所以,有效的数据分析是对「讲理」的、有规律的事物,才有预测的参考价值;对于「不讲理」的事物,反而会给你误导。

那要你要何时相信数据,何时怀疑数据呢?学点简单的统计学,才能清醒思考,从数据中获得真知,对你的认知升级是不二法门。

加里∙史密斯的《简单统计学》就是一本帮你让数据说实话的书籍,别害怕统计学,本书不是枯燥的教科书,行文幽默但逻辑严密,它的副标题是「如何轻松识破一本正经的胡说八道」,本书可以有效帮你识破谬误,但真正要掌握这些思维,可不是那么轻松

观测如何误导你的结论

在日常工作生活中,你能使用的数据很有限,而其中最被滥用的是「观测性数据」。当你根据观测的事实去推导结论,往往会出现两个错误。

一是「自选择偏差」,就是你只是留意了事实,而忽略这事实背后的原因

比如,跟不上大学的学生相比,上大学的学生在工作中的平均工资更高,你根据这个事实,推断出大学能帮助学生获得更高工资。这只是一个表层原因,更可能是上大学的学生,普遍就比不上大学的学生,更加聪明主动,更加勤奋努力。更聪明勤奋的人本身更可能获得高工资,这两者勋在「系统性偏差」,而上大学这个事件起了「自选择」作用,不过是把两群学生区分开来罢了。

二是「幸存者偏差」,就是你使用历史数据回溯时,无法观察到不复存在的事物

这个近几年被提得比较多,你估计相对熟悉,就是研究战争中回基地的飞机,这时的研究其实不包括被击落的飞机。这类偏差在数据研究中很常见,对于老年人的研究不会包括中年夭折的人,对于酒店、航班的人群调查,就忽略了来过一次而以后再也不来的人。 对于公司的研究,只从当下的巨头身上总结出经验,却完全忽视了几十年来那些失败倒闭的公司。

一个美国航班,给他们的顾客做了调查,发现满意度高达84%,但外界对这个航班却是一堆的差评。这是为什么?难道航班的调查作假?没有,这两个评价都很真实。之所以满意度很高,那是这群顾客自己一再选择这家航班,调查这群人,就忽视了那些坐过一次就再也不来的乘客,按道理这个满意度应该是百分之百,居然还有16%的人不满意。而外界的评价,就像大众点评,你坐了一次体验差,就立马给了差评,这个调查结果是更加全面的。

运气守恒可信吗

人啊,就是有个天性,为了理解周围的世界,我们会自己发现「规律」,并编造出各种理论来解释世界。

能量守恒定律,那是经过物理学证明的。而我记得一小伙伴总结了「RP(人品)守恒定律」,也就是运气守恒。对于幸运与不幸,这就是捏造出来的「规律」,只是凭简单的观察和模糊的记忆,就胡乱得出:连续的幸运就会增加不幸的可能,连续的不幸会让你下一次更加幸运。

但现实很残酷告诉你,错了,本书通过统计学实验,验证了「幸运与不幸都是独立的随机事件」我们太过高估命运的力量,而低估了毫无理由的随机事件。你抛硬币,抛了5次,恰好都是正面朝上,请问下一次反面朝上的概率是多少?

很多人就会觉得,下一次更有可能出现反面,但实际上无论你前面抛硬币的情况如何,就算是100次正面朝上,下一次正面朝上依然是50%,每一次都是独立的随机事件,并不会有一个「平均定律」让事物整体上呈现平均水平

好运当然不会永续,但是不要认为好运会提高噩运的可能性,反过来说也成立,不要认为噩运会提高好运的可能性。

本书小结

《简单统计学》内容非常多,总结了近20种思维陷阱,因为篇幅关系,这里指挑出三点,其它的就无法一一展开。全书有大量详实的数据和案例,很生动,值得你去读读,肯定会收获很多。我写了不少读书的感悟,但我很少推荐书,但此书我真心强烈推荐。

很多都与你生活息息相关,当你掌握了这些思维,虽不能说一定活得更好,但至少不会活得稀里糊涂:

去医院检查一种罕见疾病,结果居然是阳性的,这时如果你懂得「假阳性」的问题,就可以计算出被检查者患病的可能性依然非常低,不必过于担心;

了解「均值回归」,你就懂得应该多鼓励员工,而不是批评他们,如果你炒股,就可以比较淡定看待涨跌;

你懂得「混杂因素」,当别人拿一堆数据告诉你:每天喝两杯咖啡会增加患癌风险,你可以看出是胡扯;

……

有没有什么简单的方法,帮你区分出正确理论和胡扯呢?没有,不过有两种有效检验方法,可以让你长个「小心眼」

一是「常识」,这也是本书多次提到的方法,偏离常识的理论,就算是有压倒性的数据支撑,你依然要保持怀疑的态度

比如《魔鬼经济学》里面提到堕胎减少了犯罪率,但本书作者却保持怀疑,通过研究指出其中的三个统计错误,证实了这个结论是错误的。

二是「新数据」,不要用推到理论的数据进行检验,那是存在误导性,应该用研究外的新数据来检验

比如你研究公司如何成功,就应该用40年前存在的所有公司,得出一个理论,然后用40年后的今天还存在的公司进行验证之前的理论。

最后,你通过此书的学习,也能逐渐破除对数据的迷信,学会基本的统计学常识,从而具备起码的辨别力,识破各种一本正经的胡说八道。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180505G0DN0O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券