成为大牛的路上,这4个数据谬误你必须警惕

源kdnuggets译刘羽涵

本文会告诉你一连串的常见数据谬误所导致的错误结论和糟糕决策,提醒你分析数据的时候别再犯这些错误。

数据是我们提升技术的关键,但也常常误导我们。当我们分析数据时,经常会被数据戏弄。这些数据谬误通常是存在于数据中的谬见和陷阱。数据谬误最终会导致从数据中得出错误结论和糟糕决策。

为了避免落入陷阱,首先我们需要意识到陷阱的存在才能免于成为受害者。因此,我们总结了常见数据谬误指南。我们将其适用于工作环境中,以便提醒你分析数据的时候别再犯这些错误,本文中主要讲解我们认为最常见的4点数据谬误。

1. 数据挖掘

数据挖掘也叫数据试验、数据探测或者P值操纵(p-hacking)。针对一组数据提出新的假设,进行反复试验,但是未能发现大部分相关性其实是源于偶然事件的结果。只有提前定义假设,统计学数据实验才有意义。

例如,临床试验上有这样一个难题。研究人员进行了“数据挖掘”试验,反复验证一组试验结果。这导致他们发现了两个变量之间的虚假相关性,这种相关性很有可能只是偶然结果。这就是为什么很多发表在学术期刊上的研究结果后来被证明是错误的。为了避免这种情况,提前说明你的最终目标点是什么成为了临床试验登记时的标准惯例。

为了避免发生这类错误,达到数据统计学意义,在数据分析或试验前需要提前定义假设。

2. 错误的因果关系

因果关系也叫“cum hocergo propter hoc”,拉丁文意思是“有它在,所以因为它”。这种数据谬误源于错误的假设——当两个事件一起发生时,一件事一定引发了另一件事。然而相互关系并不意味着因果关系。

例如,过去150年,全球气温持续上升,海盗数量成比例下降。没有人会因此认为海盗数量的减少造成了全球气候变暖,或者是海盗增加会逆转气候变暖现象。

但是通常两个事件的边界并不清晰。两个事件的相关性诱使我们认为一个事件导致了另一事件的发生。然而,我们所看到的结果通常是由于巧合或者其他因素所导致的。在上文海盗与全球气候变暖的例子中,二者的原因都是工业化发展。还有许多关于错误因果关系的案例,TylerVigen在这方面做了很多工作。

绝对不能仅由相关性来推测因果关系,多收集证据,多想想其他可能导致所有事件发生的附加变量。

3. 过度拟合

越复杂的说明越能更好的描述你的数据。但是,越简单的说明通常越能说到本质。这其实就是过度拟合——模型与数据过度匹配,无法代表普遍趋势。

提到数据,你想要理解数据的本质关系是什么。为了达到这一目的,你构建了一个数学表达式模型。问题是复杂的数学模型比简单的模型更适用于你的原始数据。但是也更脆弱:对于你已有的数据,复杂模型很适用,但是却很难解释数据随机变化。因此,一旦你加入更多数据,模型就会出现问题。简单的模型通常更稳定,更适用于预测未来趋势。

面对过度拟合的很多案例和纠正方法,有很多不同的方法。总的来说,当第一次构建模型时,我们需要试着找到最简单的假设条件,避免在模型中去解释随机变化。

4. 关辛普森悖论

有这样一个统计学现象:在不同数组中出现的某种趋势,当把数组合并时,这个趋势就消失或者反转了。

例如:20世纪七十年代伯克利大学被控性别歧视,因为相比于男性申请人,女性申请人更不容易被录取。但是,当试图寻找问题的源头时,人们发现对于个别学科,女性申请人的录取率要高于男性。这一悖论取决于男性和女性申请人申请学科的不同。大部分女性申请人所申请的竞争激烈学科在男女录取率上都很低。还有很多这样的悖论案例,这里有一个参考视频(需翻墙):https://www.youtube.com/watch?v=ebEkn-BiW5k。

只有我们意识到这些悖论的存在,我们才能在数据中分辨出来。当发现悖论发生时,需要结合环境找出导致这一现象的其他因素。在上述案例中,原因就是女性申请人比男性申请人更倾向于申请竞争激烈的学科。

保持警惕!

当分析数据或者运行试验时,要对上述数据谬误保持警惕。当你在分析数据时,考虑以下因素可以降低你成为数据谬误受害者的几率:

分析数据或者运行试验之前,确保你已经提前定义假设条件。

思考你的数据:数据是怎样收集的?数据的收集方式是否会对你的试验结果产生潜在的偏离或者负面影响?

考虑还有哪些数据或者变量你没有发现。是否有其他研究与你的研究相矛盾?是否还有其他附加变量你没有考虑进去?

如果你再收集一次数据是否会得出不一样的结果?是否是随机变量影响了你的数据?

尝试将数据可视化而不是仅依靠数据统计度量。

-END-

译者 刘羽涵

毕业于北京交通大学交通运输学院,现就职于智能交通行业领军企业,从事交通大数据分析工作。希望与大家交流分享大数据分析挖掘知识。

了解如何加入我们

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171221G0BPN400?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区