写给数据分析的初学者

在QQ群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数据分析领域有所建树。然而在这些网友中,统计科班出身的并不多。所以,他们一味地认为软件会的多,就表明数据分析能力强。其实,这是一个误区。纵然你练了十八般武器,但并见得你就能拼得过别人的三板斧。作者以为统计软件学起来并不难,难得是理解统计方法的内涵。出于对大家的引导,问了三个问题,一来帮大家义务扫盲,二来希望大家能重视基础。

第一个问题:样本均值大家都不陌生吧!就是小学生都会计算的那个东西。在统计学里,均值很关键,因为它派生出许多重要的统计量。单独使用均值来分析问题的情况很少,至少要配上众数、中位数、最大值、最小值和方差,才能大概了解数据的概况。当然,媒体报道例外,人家的目的就是用爆炸性的数据吸引眼球,为此不惜沦为标题党。均值之外,还有两个重要的统计量最容易搞混,那就是标准差和标准误。这两个概念你搞清楚了吗?果然,群里好多人都不吱声了。估计一半是百度去了,剩下的几个也在发着企鹅摇头的困惑表情。如果读博文的你也不知道,建议看一下本人的上一篇博文《标准差与标准误的区别》,在此不再赘述。

第二个问题:相关分析知道吧,就是那个衡量两列数据线性相关的方法。相关系数也应该很清楚,取值范围是【-1,1】。我要问的是复相关系数,就是回归分析里用来衡量因变量与一组自变量之间相关关系的度量尺度。复相关系数的取值范围是多少呢?这个知道的更少了,一个个发出来的都是不知道,只有一个弱弱地回答不是【-1,1】吗?我既然这么问,那就肯定不是了,复相关衡量的是一个变量与一组变量线性组合后的相关系数。因为这一组变量经过了线性组合,也就是加加减减,所以正负的方向就没有了,只剩了量的大小,所以取值范围是【0,1】。还有一个就是那个修正后的决定系数2,这个家伙的取值范围又是多少呢?不要只看到平方就断定它是非负的,特殊情况下它是会小于0的。

第三个问题:这个问题有点趣味性了,表达起来就一句话:如果一枚硬币连投10次都是正面,问第11次出现正面的概率是多少?

问题一出,答案马上就来了。1/2、 0.5、应该是0.5吧、支持楼上、楼上正解。

真的是吗?我又发问。

马上就有人顶贴:大家坚持住,肯定是0.5。

大家没有其他更合理的答案了吗?我又试探着询问,真的希望能有一个不同的回答呀。可是,这次大家没有一个人倒戈,那是相当的坚持!

快给答案吧,大家催促着。

100%吧,或者接近100%。我敲出了这样一个答案。

瞎说吧、胡扯呢、巨汗……这就是大家的反应。

那就听我慢慢道来。我尽量选择一种最容易让大家接受的方法来解释。一个硬币连抛10次都出现正面的概率是0.510,绝对的小概率事件。在一次实验中,小概率事件发生,那么我们就应该拒绝原假设。原假设是什么?硬币出现正反的概率是0.5。所以,我们可以大胆地推断,硬币本身就是一个两面都是正面的硬币,所以说第11次出现正面的概率是100%,或者接近100%。

立马,就有人对我的答案提出了质疑。说我的答案有点偏,顿时嘘声一片。

我只能厚着脸皮继续解释。树上10只鸟,猎枪一枪打死1只,树上还剩0只的结论大家都应该同意吧。因为我们考虑的是实际问题,不是10-1等于几的数学算式。所以大家在幼儿园的时候就知道枪声响过,树上一只鸟都不会剩。试想,你和你的朋友打赌投硬币猜正反,如果10次之后朋友投出来的都是正面,你会怎么想?兄弟你出千了吧,硬币肯定有问题吧!相信用不了10次,你就会提出这样的质疑了。如果说计算概率,0.5没有错,独立事件发生的概率不因之前的情况而改变。但是,如果用假设检验的思想,100%的结论就更合理了。之所以说0.5的结果不对,不是说你的计算出错了,而是在把实际问题转换成统计问题的时候,你太教条了,太书本了。这道貌似概率计算的问题,实则是假设检验的考题。由于你选错了方法,所以即使整个计算都精益求精,但结果依然不会正确。就如同10-1=9,谁都不会说错,但若用到猎枪打鸟上,就是你的不对了。

多看看统计学的基础教程吧,我只能这样建议大家。建议每一位立志数据分析的人士,都能有一个坚实的统计学基础。统计基于概率,但重点在研究规律。所谓的历史可以重演,重演的结果就是下一次还会出现正面!记住一句话:数据分析用对了可以创造财富,用错了绝对有害无益。

谨以此文献给即将或正在从事数据分析的人士。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

算法音乐往事:二次元女神“初音未来”诞生记

音乐的诞生甚至早于语言,人类对于音乐的探索却从未停止。从最初的“音乐骰子”到如今火遍二次元的宅男女神“初音未来”,算法与音乐之间的故事,才刚刚开始。

980
来自专栏量子位

围观别人打超级玛丽后,AI自己创造了个新游戏

安妮 编译自 The Verge 量子位 出品 | 公众号 QbitAI AI会打游戏已经不是新鲜事了。微软AI打出吃豆人史上最高分,暴雪和DeepMind开发...

2814
来自专栏新智元

一图看懂 AI 阵营:学习人工智能,站错了队可会导致自取灭亡

【新智元导读】AI 的方法有许多,除了我们较为熟悉的“五大流派”,本文作者对 AI 的各流派进行细分,梳理了起码 17 种方法,并用一张图直观地展现。作者说,各...

32612
来自专栏量子位

“不正经”NIPS大会指北:嘻哈歌手、感人长队,以及最佳论文

夏乙 问耕 假装发自加州 量子位 出品 | 公众号 QbitAI ? 这几天,AI圈人士纷纷前往洛杉矶附近风景宜人的长滩。 他们在这里排长队、晒太阳、看大海、听...

3275
来自专栏量子位

机器翻译简史:八十多年来,人类就是要再造一座通天塔

《圣经》中记载,人类曾经联合起来兴建能通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。

872
来自专栏数据魔术师

机器学习|刘博士谈机器学习--开篇

1646
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[5.4]:受限玻尔兹曼机——对比散度

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会每天在公众号中推送一到两节课,并且对视频中的 PPT 进行讲解。课后,我们会设计一...

3576
来自专栏专知

谷歌发布新AI开源项目 邀您与Bengio一起合作研究

【导读】去年深度学习框架Keras的作者、Google人工智能专家François Chollet 开发了一个专注于AI开源项目协作平台AI·ON(地址:htt...

3399
来自专栏人工智能

我用人工智能来打小怪兽

距离2018 15天 ------- 关键词:人工智能 故事起源于公元2017年12月15日的一个下午,在无尽星空中的某个星球,小二两突然接收到了来自遥远的母星...

2268
来自专栏ATYUN订阅号

机器学习算法检测分析辐射损伤,速度和准确率均胜过人类

威斯康星大学麦迪逊分校和橡树岭国家实验室的研究人员训练计算机,使其快速一致地检测和分析核反应堆材料的微观辐射损伤,并且计算机在这项艰巨的任务中表现胜过人类。

752

扫描关注云+社区