【统计学习】写给在学习统计的学弟学妹

在其他论坛看到一篇写如何学统计的文章,作者侃侃而谈,语言也不失幽默,更重要的是,平实的表述中却把很多读统计的童鞋共有的感受和疑问一同归纳总结了出来。楼主看过之后,觉得很有共鸣,特地贴过来让大家也看看:

统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:收集、整理、分析和表述(数据)。

1、收集数据

一般来说,数据的来源无非是试验和调查。平时我们谈统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。若就纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法;对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等),另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”,当然如果有统计学的指导,我们也会发现一些让人变聪明的技术,举个例子,对于吸毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒),对于这种情况我们该怎么处理?暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。

对于我所处的这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?

2、整理数据

数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情,你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值(Missing Value),胡乱填写的可能成为离群点或野值(Outlier),对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。当然数据的整理还包括很多其它内容,诸如重新编码(Recode)或者进行某种综合计算等等,这里不详谈,因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的前沿知识有所了解。关于缺失值的处理,目前已经发展起来比较完备的插补技术(Imputation),这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC(Monte-Carlo Markov Chain)等知识。相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的学分绩太高以至于成了“野值”,我们就不能把他/她从班里“删除”,而应该借鉴学习经验)。

3、分析数据

不可否认,当今社会对于统计的需求,大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北,然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用,要花很多钱购买,更可怕的还都是英文的……我琢磨着,他们一定心想,苍天呐,如果还有来生,我……一定要学统计……

作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了(事实上按照C. R. Rao书中写的,还应该包括探索性统计分析);描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP,国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等,而是公布一个总数,让大家对我国的国力有大致的了解;推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。推断统计中,根据是否需要对分布作假设又可以分为参数统计和非参数统计,后者出现的年代要晚,因此在理论和应用方面可能不如前者,二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。

相关的名词恐怕也不是一两页纸能列举完的:相关分析(包括典型相关分析)、回归分析(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)这样的名词,那只能说明你还在一个古董世界徘徊,需要加把劲了。

关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。可以看出,国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”,我就不诱导大家了,这对于国内统计学的长远发展不太有利。

还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思索”地给你输出漂亮的结果。(统计软件有时候挺害人的,不要完全相信它们)

4、表述数据

我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。

统计是用来说明问题的,不是用来吓唬人的。把我们的分析结果表述给人家看,就需要经过一定的“转化”。不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为人们为它的分析结果找到了巧妙的解释。

上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。表格中的数据不使用右对齐(或小数点对齐)、图形画得花里胡哨或土里土气,都会让统计的功效受损,虽然只是“面子问题”。学了那么长时间的统计,不应该不知道图的标题应该写在图下方而表的标题应该写在表上方,平时看文章多注意别人是怎样表达的。

好了,统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势:一方面是学科结合的趋势,单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其它各个学科,若不是这些学科给统计学“出难题”,统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?心理学会问你,人的情商是一个隐变量,应该怎样测量?金融学会问你,股票市场上时序数据的异方差怎样处理?市场营销学会问你,怎样从超市的海量数据中挖掘出有用的商品信息?法学会问你,某甲杀人的概率有多大?新闻传播学会问你,大众对某位候选者的真实支持率有多高?等等……;另一方面是计算机的广泛应用趋势,我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2绝对是不可能了,计算机方面又尤其要数编程能力最重要,这番话是对那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。

学习方面说这样几点吧:

首先,不要指望你的老师会教给你所有的知识,同时也要明白你所学的知识是很不全面的。大学与高中不一样,这里不是一个纯粹的教学的地方,更多地是思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字记下来,那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系,不是老师在几节课上能讲出来的。老师可以告诉你,统计学都有什么内容,剩下的就是你自己多多努力奋斗。

其次,攻书莫畏难。可能这也是大学与高中的区别之一,高中某一道题不会做可能会影响你的考试成绩,而大学则不是用来为难人的地方。此路不通可以走彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看,总之要有自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。不过话说回来,不要被我误导,我不是说可以随意放弃一些课程,基础仍然是要打好的,在这个条件下,你可以选择自己擅长的方向发展。

再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源,注意上网看看,学校都购买了大量的论文数据库,不用实在可惜了。里面的统计刊物可以趁早接触一些,对于论文写作以及知识面的拓展是很有好处的。

最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我……

此文来自

http://emuch.net/html/201203/4209425.html

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏牛客网

通信转数据挖掘:前期准备+笔试面试实录一、准备以及我本来有的基础二、笔试面试经验三、碰到的有意思的事情四、对自己以后人生的规划

漫长的秋招之旅,还不是因为自己菜运气还不好 经过这次秋招,对自己的评价就是傻乎乎,但也跟室友讲,经过了这次我们就能快速成长了啊。 本人是电子与通信工程专业的小硕...

4659
来自专栏ACM算法日常

机器学习-如何练习?

看了差不多一半了,发现有个问题,那就是这个教程没有实际的项目,虽然说教程里面一直讨论买房的价格问题,却还没开始动手操作,也许是讲到最后才能够开始...

1123
来自专栏PPV课数据科学社区

【工具】R语言学习参考图书不完全指南

这里大部分都是英文的书。国内对于R的书籍的翻译中文几乎可以忽略的说。 1.入门级读物 R的帮助文档中提供了一些入门的读物,比如《Anintroduction t...

2273
来自专栏PPV课数据科学社区

R语言学习由浅入深路线

现在对R感兴趣的人越来越多,很多人都想快速的掌握R语言,然而,由于目前大部分高校都没有开设R语言课程,这就导致很多人不知道如何着手学习R语言。 对于初学R语言的...

2932
来自专栏量子位

一个八卦的AI,嗅到了你和TA之间基情满满

832
来自专栏华章科技

北大教授李忠:谁说学数学只是为了升学?数学可以让你受益终生!

导读:一个人,从小学、中学甚至到大学,都得学数学。为什么要学这么多数学呢?其意义究竟何在?

2483
来自专栏机器学习算法与Python学习

走近Hinton:AI教父传奇人生

三十多年以来,Geoffrey Hinton一直都处于人工智能研究的边缘地带。他像一个局外人一样坚守着一个简单的观点:计算机可以像人类一样,依靠直觉而不是规则进...

923
来自专栏LET

最美的理论(中篇)

1647
来自专栏大数据文摘

期货大数据:从商品间相关系数挖掘市场宏观性趋势

2139
来自专栏PPV课数据科学社区

莱布尼兹如何想出微积分?

一、引言 莱布尼兹 Leibniz(1646~1716)在1714年发表一篇文章叫做 "Historia et origo calculi differenti...

35714

扫码关注云+社区