写给数据分析的初学者

在QQ群里听到一些网友在讨论数据分析的话题。有人正为自己学会了spss而高兴,有人说自己还略懂sas,还有人提到了sql查询语言。大家都在积极地学习,希望能在数据分析领域有所建树。然而在这些网友中,统计科班出身的并不多。所以,他们一味地认为软件会的多,就表明数据分析能力强。其实,这是一个误区。纵然你练了十八般武器,但并见得你就能拼得过别人的三板斧。作者以为统计软件学起来并不难,难得是理解统计方法的内涵。出于对大家的引导,问了三个问题,一来帮大家义务扫盲,二来希望大家能重视基础。

第一个问题:样本均值大家都不陌生吧!就是小学生都会计算的那个东西。在统计学里,均值很关键,因为它派生出许多重要的统计量。单独使用均值来分析问题的情况很少,至少要配上众数、中位数、最大值、最小值和方差,才能大概了解数据的概况。当然,媒体报道例外,人家的目的就是用爆炸性的数据吸引眼球,为此不惜沦为标题党。均值之外,还有两个重要的统计量最容易搞混,那就是标准差和标准误。这两个概念你搞清楚了吗?果然,群里好多人都不吱声了。估计一半是百度去了,剩下的几个也在发着企鹅摇头的困惑表情。如果读博文的你也不知道,建议看一下本人的上一篇博文《标准差与标准误的区别》,在此不再赘述。

第二个问题:相关分析知道吧,就是那个衡量两列数据线性相关的方法。相关系数也应该很清楚,取值范围是【-1,1】。我要问的是复相关系数,就是回归分析里用来衡量因变量与一组自变量之间相关关系的度量尺度。复相关系数的取值范围是多少呢?这个知道的更少了,一个个发出来的都是不知道,只有一个弱弱地回答不是【-1,1】吗?我既然这么问,那就肯定不是了,复相关衡量的是一个变量与一组变量线性组合后的相关系数。因为这一组变量经过了线性组合,也就是加加减减,所以正负的方向就没有了,只剩了量的大小,所以取值范围是【0,1】。还有一个就是那个修正后的决定系数2,这个家伙的取值范围又是多少呢?不要只看到平方就断定它是非负的,特殊情况下它是会小于0的。

第三个问题:这个问题有点趣味性了,表达起来就一句话:如果一枚硬币连投10次都是正面,问第11次出现正面的概率是多少?

问题一出,答案马上就来了。1/2、 0.5、应该是0.5吧、支持楼上、楼上正解。

真的是吗?我又发问。

马上就有人顶贴:大家坚持住,肯定是0.5。

大家没有其他更合理的答案了吗?我又试探着询问,真的希望能有一个不同的回答呀。可是,这次大家没有一个人倒戈,那是相当的坚持!

快给答案吧,大家催促着。

100%吧,或者接近100%。我敲出了这样一个答案。

瞎说吧、胡扯呢、巨汗……这就是大家的反应。

那就听我慢慢道来。我尽量选择一种最容易让大家接受的方法来解释。一个硬币连抛10次都出现正面的概率是0.510,绝对的小概率事件。在一次实验中,小概率事件发生,那么我们就应该拒绝原假设。原假设是什么?硬币出现正反的概率是0.5。所以,我们可以大胆地推断,硬币本身就是一个两面都是正面的硬币,所以说第11次出现正面的概率是100%,或者接近100%。

立马,就有人对我的答案提出了质疑。说我的答案有点偏,顿时嘘声一片。

我只能厚着脸皮继续解释。树上10只鸟,猎枪一枪打死1只,树上还剩0只的结论大家都应该同意吧。因为我们考虑的是实际问题,不是10-1等于几的数学算式。所以大家在幼儿园的时候就知道枪声响过,树上一只鸟都不会剩。试想,你和你的朋友打赌投硬币猜正反,如果10次之后朋友投出来的都是正面,你会怎么想?兄弟你出千了吧,硬币肯定有问题吧!相信用不了10次,你就会提出这样的质疑了。如果说计算概率,0.5没有错,独立事件发生的概率不因之前的情况而改变。但是,如果用假设检验的思想,100%的结论就更合理了。之所以说0.5的结果不对,不是说你的计算出错了,而是在把实际问题转换成统计问题的时候,你太教条了,太书本了。这道貌似概率计算的问题,实则是假设检验的考题。由于你选错了方法,所以即使整个计算都精益求精,但结果依然不会正确。就如同10-1=9,谁都不会说错,但若用到猎枪打鸟上,就是你的不对了。

多看看统计学的基础教程吧,我只能这样建议大家。建议每一位立志数据分析的人士,都能有一个坚实的统计学基础。统计基于概率,但重点在研究规律。所谓的历史可以重演,重演的结果就是下一次还会出现正面!记住一句话:数据分析用对了可以创造财富,用错了绝对有害无益。

谨以此文献给即将或正在从事数据分析的人士。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-12-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

参加数据挖掘类竞赛是一种什么样的体验?

随着天池穿衣搭配推荐比赛的结束,我也该暂且退出竞赛江湖,一心一意搞科研了。今年共参加了3场公开比赛,成绩虽不是特别好,但也还说的过去,在搞比赛上面花费了不少时间...

43680
来自专栏机器之心

专栏 | 上海纽约大学张峥教授:2017年影响力论文推荐

这篇文章特意选择在 NIPS2017 会议期间发表,但与会者并没有特别大的反应。相反,在研讨会上这篇文章引起了关于通用智能的一场针锋相对的讨论。

13820
来自专栏华章科技

资源 | 自学数据科学&机器学习?19个数学和统计学公开课推荐

数学和统计学是数据科学和机器学习的基础。就我所知,大多数成功的数据科学家都来自这些领域——计算机科学、应用数学和统计学、经济学。如果你想掌握数据科学,你就必须要...

25120
来自专栏企鹅号快讯

深度学习真的不需要理论指导了?图灵奖得主讲座无人问津,贝叶斯之父Judea Pearl落寞身影背后引人深思

【导读】最近NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中把机器学习称为“炼金术”(Alchemy)引起...

23590
来自专栏新智元

【热点】谷歌腾讯FACEBOOK最新必争之地:神经网络翻译NMT

【新智元导读】 5月10日,Facebook发布了一项新的机器翻译技术,使用CNN技术而非传统的RNN,在翻译准确度超越了此前被认为是2016年10大AI突破技...

606260
来自专栏新智元

麦克阿瑟天才奖得主解码计算机视觉“原罪”:AI 如何认识人类世界

【新智元导读】麦克阿瑟“天才奖”获得者Trevor Paglen训练AI算法,他的展览项目“看不见的图像的研究”(A Study of Invisible Im...

37770
来自专栏量子位

搞机器学习/AI有什么必备的数学基础?| 经验之谈+资源大全

雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI 今天是开学第一天!心里只有学习的量子位,发现Hacker News上又有高分话题,而且还跟学习有关...

42450
来自专栏量子位

ImageNet这八年:李飞飞和被她改变的AI世界

李杉 安妮 编译自 QZ 量子位 报道 | 公众号 QbitAI ? 2006年,李飞飞开始考虑一个想法。 当时刚刚出任伊利诺伊大学香槟分校计算机教授的她发现,...

50060
来自专栏计算机视觉战队

2018年暑假最全的干货总结

之前很多读者反映新人和旧人得分的明细一些,那今天先总结一下本平台自创办以来一些经典的干货和实验等,希望对大家有所了解~

12120
来自专栏机器之心

三问 Christopher Manning:超越模型存在的语言之美

机器之心原创 作者:邱陆陆 「深度学习的波浪在计算语言学的海岸线上往复经年,而今已如海啸一般向所有的自然语言处理(NLP)会议发起冲击」。两年前,在北京,Chr...

346100

扫码关注云+社区

领取腾讯云代金券