写给数据分析的初学者

在QQ群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数据分析领域有所建树。然而在这些网友中,统计科班出身的并不多。所以,他们一味地认为软件会的多,就表明数据分析能力强。其实,这是一个误区。纵然你练了十八般武器,但并见得你就能拼得过别人的三板斧。作者以为统计软件学起来并不难,难得是理解统计方法的内涵。出于对大家的引导,问了三个问题,一来帮大家义务扫盲,二来希望大家能重视基础。

第一个问题:样本均值大家都不陌生吧!就是小学生都会计算的那个东西。在统计学里,均值很关键,因为它派生出许多重要的统计量。单独使用均值来分析问题的情况很少,至少要配上众数、中位数、最大值、最小值和方差,才能大概了解数据的概况。当然,媒体报道例外,人家的目的就是用爆炸性的数据吸引眼球,为此不惜沦为标题党。均值之外,还有两个重要的统计量最容易搞混,那就是标准差和标准误。这两个概念你搞清楚了吗?果然,群里好多人都不吱声了。估计一半是百度去了,剩下的几个也在发着企鹅摇头的困惑表情。如果读博文的你也不知道,建议看一下本人的上一篇博文《标准差与标准误的区别》,在此不再赘述。

第二个问题:相关分析知道吧,就是那个衡量两列数据线性相关的方法。相关系数也应该很清楚,取值范围是【-1,1】。我要问的是复相关系数,就是回归分析里用来衡量因变量与一组自变量之间相关关系的度量尺度。复相关系数的取值范围是多少呢?这个知道的更少了,一个个发出来的都是不知道,只有一个弱弱地回答不是【-1,1】吗?我既然这么问,那就肯定不是了,复相关衡量的是一个变量与一组变量线性组合后的相关系数。因为这一组变量经过了线性组合,也就是加加减减,所以正负的方向就没有了,只剩了量的大小,所以取值范围是【0,1】。还有一个就是那个修正后的决定系数2,这个家伙的取值范围又是多少呢?不要只看到平方就断定它是非负的,特殊情况下它是会小于0的。

第三个问题:这个问题有点趣味性了,表达起来就一句话:如果一枚硬币连投10次都是正面,问第11次出现正面的概率是多少?

问题一出,答案马上就来了。1/2、 0.5、应该是0.5吧、支持楼上、楼上正解。

真的是吗?我又发问。

马上就有人顶贴:大家坚持住,肯定是0.5。

大家没有其他更合理的答案了吗?我又试探着询问,真的希望能有一个不同的回答呀。可是,这次大家没有一个人倒戈,那是相当的坚持!

快给答案吧,大家催促着。

100%吧,或者接近100%。我敲出了这样一个答案。

瞎说吧、胡扯呢、巨汗……这就是大家的反应。

那就听我慢慢道来。我尽量选择一种最容易让大家接受的方法来解释。一个硬币连抛10次都出现正面的概率是0.510,绝对的小概率事件。在一次实验中,小概率事件发生,那么我们就应该拒绝原假设。原假设是什么?硬币出现正反的概率是0.5。所以,我们可以大胆地推断,硬币本身就是一个两面都是正面的硬币,所以说第11次出现正面的概率是100%,或者接近100%。

立马,就有人对我的答案提出了质疑。说我的答案有点偏,顿时嘘声一片。

我只能厚着脸皮继续解释。树上10只鸟,猎枪一枪打死1只,树上还剩0只的结论大家都应该同意吧。因为我们考虑的是实际问题,不是10-1等于几的数学算式。所以大家在幼儿园的时候就知道枪声响过,树上一只鸟都不会剩。试想,你和你的朋友打赌投硬币猜正反,如果10次之后朋友投出来的都是正面,你会怎么想?兄弟你出千了吧,硬币肯定有问题吧!相信用不了10次,你就会提出这样的质疑了。如果说计算概率,0.5没有错,独立事件发生的概率不因之前的情况而改变。但是,如果用假设检验的思想,100%的结论就更合理了。之所以说0.5的结果不对,不是说你的计算出错了,而是在把实际问题转换成统计问题的时候,你太教条了,太书本了。这道貌似概率计算的问题,实则是假设检验的考题。由于你选错了方法,所以即使整个计算都精益求精,但结果依然不会正确。就如同10-1=9,谁都不会说错,但若用到猎枪打鸟上,就是你的不对了。

多看看统计学的基础教程吧,我只能这样建议大家。建议每一位立志数据分析的人士,都能有一个坚实的统计学基础。统计基于概率,但重点在研究规律。所谓的历史可以重演,重演的结果就是下一次还会出现正面!记住一句话:数据分析用对了可以创造财富,用错了绝对有害无益。

谨以此文献给即将或正在从事数据分析的人士。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

干货 :数据挖掘中易犯的11大错误

5. 使用了未来的信息(Accept Leaks from the Future)

702
来自专栏华章科技

500款各领域机器学习数据集,总有一个是你要找的

美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

561
来自专栏AI研习社

浅析Geoffrey Hinton最近提出的Capsule计划

Geoffrey Hinton 以「深度学习之父」和「神经网络先驱」闻名于世,其对深度学习及神经网络的诸多核心算法和结构(包括「深度学习」这个名称本身,反向传播...

3409
来自专栏机器之心

解读 | 如何使用深度强化学习帮助自动驾驶汽车通过交叉路口?

机器之心原创 作者:Shixin Gu 参与:Hao、Panda 交叉路口是自动驾驶系统所面临的难点之一。今年五月,来自宾夕法尼亚大学、本田研究院和乔治亚理工学...

3115
来自专栏企鹅号快讯

深度学习在医疗诊断领域优势明显,数据质量将成AI未来发展瓶颈

人工智能正在改变医疗诊断行业 今年年初,谷歌成功研发出一套用于乳腺癌诊断的人工智能系统。这套系统分析了大量的病理组织显微图像,速度比人类快得多,且肿瘤检出率高达...

2928
来自专栏CDA数据分析师

数据挖掘中最易犯的10个错误,请绕行!

按照 Elder 博士的总结,这 10 大易犯错误包括: 0、缺乏数据( Lack Data ) 1. 太关注训练( Focus on Training ) 2...

1779
来自专栏人工智能头条

深度学习:推动NLP领域发展的新引擎

1815
来自专栏大数据挖掘DT机器学习

网易云音乐歌单的推荐算法解析

网易云音乐的歌单推荐算法是怎样的呢?最近有很多人关心这个问题。调查了一些网易云音乐的重度患者,小咖带你来看一些路过大神的精辟分析。 分析一: “商品推荐”系统...

3564
来自专栏机器之心

「我是可微分编程的粉丝」,Gary Marcus再回应深度学习批判言论

3566
来自专栏CVer

AILOB青年技术专家平台联盟第四次分享会圆满召开

撰稿:Amusi & Wu Chen 修改补充:H 同学 会议时间:2018年6月24日(周日)13:00 Note:因为涉及保密条款,故文中大多数成员以简称来...

964

扫码关注云+社区