【译】统计学教会我们的10件事

作者|Jeff Leek

翻译|任然

校对|罗双英

在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。

在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。但是许多应用统计学中犀利的概念确实与大数据分析密不可分。为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 鉴于网络总是喜欢列“前十名单”,那我也就列出十个概念。不过如果人们感兴趣深入探讨的话,这些概念当然不会止步于十。当然,大家对于我的观点可能会有不同看法,我认为它们普遍来说也不是什么坏事。

1. 追求预测准确性,则平均多个预测模型

大体上讲,经常在Kaggle 比赛或Netflix奖中获胜的预测算法都是把多重模型混合到一起来执行预测的。这样做的意义在于,如果将多种预测算法进行平均(或取大多数投票),你可以在不舍去偏差的情况下减少变量。此做法早先有一个更简化的名字,因其基于引导样品以及建立多重预测方程,所以简化为Bagging(为bootstrap aggregating缩写)。“随机森林”---是另一个非常成功的基于一个类似分类树概念的预测算法。

2. 检测多个假设时,做多重测试校正

此论点指出了在进行多个检测中标准假设检验的问题。甚至当零检验是正确时,经典假设检验是为检验数据5%显著性而设计的。在纠正多重检验中,一个很普遍的选择就是使用错误发现率来控制所谓的显著性是错误发现的比率。人们喜欢这种方法是因为其可以视错误发现为发现信号中的干扰率。

Benjamini 和Hochber 已为错误发现率定义并提出了一套控制错误发现率的程序。同时,Storey 和Tibshirani也为错误发现率做了一份详细介绍。

3. 当你拥有空间、距离或时间测量数据时,你需要使其变为平滑曲线

这是统计学里最老生常谈的概念之一(回归是一个平滑的形式,Galton早已将其普及化)。我个人很喜欢局部加权散点图,如下图是一个局部加权散点图的示意图。

4. 在用电脑分析你的数据之前,记得先给数据制图

业余分析师最容易犯的错误就是直接去用些花哨的软件建一个模型去框住你的大数据集。如果不事先制图,你就会错过一些最显而易见的东西,比如安斯库姆四重奏。

制图有太多的表现形式,不过在比较多个技术测量中,Bland-Altman图(在基因组学中被称为MA-图)渐渐变得尤为重要。R提供了大量的图表选择, ggplot2使图表更美观。

5. 交互分析是真正了解数据集的最佳方法

此点跟第四点有关;如果你想真正理解一个数据集,你就得完完全全把它玩透。你得做表格,制图,识别突变,异常值,缺失值及其它数据问题。要做到这些你就得快速地进行交互数据分析。其中的一个一蹴而就的方法就是使用诸如Hive, Hadoop, 或Pig的数据分析软件完成整个数据的分析。但是还有一个更简单、更好、更经济的方法便是使用随机样本。就如Robert Gentleman 所说“让大数据变得越小越好,越快越好。”

6. 知道样本的真实大小

数据集大小很唬人。试想,你有一个白底黑圈像素图。当分辨率不断升高,文件的尺寸也会变大,但是图片的信息量并不会有变化(因此有了矢量图)。同理,在基因组学中,你测量的译出遗传信息(决定数据的大小)不是样本大小,而是个体数量。在社交网络中,社交网络中的人数也许并不是样本尺寸。如果网络很密集,那么样本相比下可能要小得多。总的来说,样本越大越好,但是样本大小与数据集大小并非一直密切相关。

7.除非你使用随机试验,否则混淆因素会让你夜不能寐。

在统计分析中混杂是一个非常基本的概念。它会导致伪相关, 这也是营养学研究非常艰难的原因。首先是很难随机化人们的饮食,然后饮食健康的人与饮食不健康的人在生活的其它重要方面也可能是不同的。大数据集中混杂因素可能是对技术变量的测量方法,再或者是随着时间在Google上变化的词条。无论什么时候,当你有了一个新发现时,你的第一反应应该是“什么是潜在混杂因素”。

8. 提前定义好成功的标准

这一点也许是最简单,但却是在统计学和决策理论中最关键的一点。有时候你的目标可能是发现一些新关联;如果你提前将此设为研究的目标,当然是个不错的想法。应用统计学教会我们的一件事就是:当发现结果与现实严重偏差时,请更改你的标准。所以当你发现相关关系时,不要以为你可以预测一个新结果或已发现了一个因果关系。

9. 确保你的编码和数据是可用的并把你的数据交给专业人士检查

很多人在我上一篇文章中指出,Reinhart and Rogoff 问题没有涉及大数据。但是即使是小数据例子,分析中也出现了一个错误。在大数据和合成模型中,这个问题就更加重要了。Mozilla Science 正在做一个关于数据分析编码校核的工作。但是你如果有朋友可以帮你检测你的代码,你分析中的各种小问题就会暴露出来。

10. 问题在先方案在后

应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。在大数据中也有类似的用一个工具(如Hadoop, Pig, Hive, NOSQL databases, Distributed Computing, GPGPU等)解决所有问题的诱惑,然后很容易让我们忽略了我们是否能推断X与Y相关或者X能预测Y这些问题。

素材来源: http://simplystatistics.org

作者简介: JeffLeek,约翰霍普金斯大学教授,进行统计学研究,撰写数据分析软件,建立数据集,编写统计学数据博客,以及与了不起的同学一起做一些创意性工作。

大数据文摘译者简介

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2015-08-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

《黑镜》黑科技成真 | 解码脑电信号,AI重构脑中的画面

原作 TIM COLLINS Root 编译自 Dailymail 量子位 出品 | 公众号 QbitAI 上周五,一贯借黑科技刻画人性阴暗面的英剧《黑镜》刚出...

3309
来自专栏机器人网

工业机器人的基本组成及技术参数

工业机器人的基本组成   工业机器人由3大部分6个子系统组成。 3大部分是机械部分、传感部分和控制部分。 6个子系统是驱动系统、机械结构系统、感受系统、机器人-...

4248
来自专栏AI研习社

Facebook 开源 FAISS;MIT 开发机器学习数据合成系统 SDV | 开发者头条

更高效的聚类、相似性搜索算法库,Facebook 开源 FAISS MIT 黑科技,合成数据也能用于机器学习 机器学习算法成功预测人造地震 每日推荐阅读 Vi...

3474
来自专栏机器之心

资源 | 《Deep Learning》中文印前版开放下载,让我们向译者致敬

选自GitHub 机器之心整理 参与:蒋思源 《Deep Learning》中文版(印前版)正式发布。这本书适合于各类读者,尤其是学习机器学习的本科或研究生、深...

3807
来自专栏新智元

论文 | 预测 API 从谷歌、亚马逊等大平台盗取机器学习算法

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

3926
来自专栏vue学习

读《学习之道》— 记忆技巧多多益善

不用文字而用思维图像来记忆事物,你能更加轻松达到专家水平,换句话说,学会用视觉化方法处理数学和科学概念是达到大师境界强有力的手段,同事运用其他记忆技巧也会大幅增...

942
来自专栏企鹅号快讯

攻击生物识别验证,可以分哪几步?

刷脸乘车、刷脸支付、刷脸解锁手机......从钱包到手机,这一次干脆彻底解放。生活中似乎不会再有忘带现金、忘记密码的尴尬,因为没有人出门会忘记”带脸“。现实真魔...

2377
来自专栏量子位

迁移学习比赛:OpenAI喊你重温「音速小子索尼克」

可算法的训练和测试环境都是同一个,这就会让那些本身带有超参数和靠死记硬背的算法获得不错的结果。

881
来自专栏PPV课数据科学社区

大数据告诉你,如何写论文能上核心期刊

评职称要发论文,可是为什么论文投出去,都石沉大海、毫无音讯了呢?隔壁的王教授、张老师,为什么写一篇论文,核心期刊就发一篇,他有什么秘诀? 各位老师、同学,是不...

3583
来自专栏CDA数据分析师

数据图表应用:强大的散点图

报告是位花姑娘,图表是件花衣裳。姑娘不仅要穿,还得懂得怎么穿! 初阶的饼图、环形图、折线图、柱形图、条形图等就不多说了,因为他们直观到无需解释。但需要提一下做这...

2565

扫码关注云+社区

领取腾讯云代金券