事实真是如此吗?实际上,在日常学习工作中统计可以说是数据分析的基石,而统计学则是数据挖掘和大数据的基础学科。
因此作为一门研究数据收集、整理与分析的学科,统计学无疑能够帮助我们实现数据运用的终极目标(终极目标:洞悉本质、确定规律、预测未来),而在掌握统计思想的前提下,选择恰当的统计分析方法将让我们更为科学地理解和掌握数据的本质。
统计核心思想虽然只有四点,但很精辟地总结了在统计过程中需要注意的重要环节:抽样思想、假设检验思想、小概率思想和误差控制思想。
(一)抽样思想
在对数据进行统计分析时,一般情况下所遇到的总体都是无限的,此时抽样是一个非常不错的选择。
(二)假设检验思想
统计学中说的检验主要分为四大类:t检验、方差分析、非参数检验和卡方检验,同时它们从属于假设检验思想。
当然,假设检验思想还包含了t/F检验、非参数检验、卡方检验等具体理论内容,该思想的核心就是假设:无效假设(H0)和备择假设(H1)。
利用假设可以将检验结果分出两种可能,而这两种可能的正确性论证将会交给小概率思想。
(三)小概率思想
有了假设后,就轮到小概率思想了。小概率思想是指小概率事件(P≤0.05)在一次试验中或抽样中基本不可能发生的。利用这个思想,我们是可以判断上一步所做出的假设是否正确,以便及时作出调整。
而我们获得科学研究的结果时,也需要给出事件的P值,这个P值将决定了科学研究成果的准确性和可靠性。
(四)误差控制思想
经历了上述三步之后,但是依然会出现错误的,这不仅是统计学自身的原因,还会有小概率思想的影响。也就是说尽管只有5%的概率,但还是有可能发生。
此时就需要误差控制了,而误差控制主要表现在三个方面:实验设计、实验过程和统计分析,在每一个阶段均利用各种方法进行合理调控以减少误差。
在统计学整个数理统计的过程中无时无刻都包含着这四个思想,只有熟练掌握这四个思想才能更好地达成统计的目的。
大家应该都知道,体现一个人的统计学功底主要在于实战应用上,那么,统计分析方法又该如何选择呢?判断的标准究竟是怎样的呢?
简单来说,统计分析方法的选择有三个核心要素:研究目的、统计设计和变量类型,其中判断的关键就是变量。而变量也分为三种类型:数值变量、等级变量和分类变量。
(一)数值变量
数值变量又称为计量资料或定距资料,从名字可以得知该变量是定量检测出来的,比如身高、体重,因此数值变量是能够进行加减运算的,在对两个或多个变量进行差异性分析的时候,我们可以选择 t 检验分析方法。
(二)等级变量
等级变量又称为有序变量,同样可以从名字得知该变量是存在着层次关系,比如初、中、高级的职称,因此等级变量只支持>或<,同时对该变量进行差异性分析时,我们是可以选择非参数检验分析方法的。
(三)分类变量
分类变量又称为计数资料或名义变量,主要有二分类和多分类两种,比如性别、民族,因此我们可以选择卡方检验分析法进行差异性分析。
说到这里,变量已经是介绍完毕了。不过大家应该可以看出,根据变量选择的只是差异性分析方法,而实际上统计分析方法并非只有一种。
如果用等级划分来表示的话,统计分析方法可以分为:描述性分析(初级)、差异性分析(中级)、关系性分析(高级)。
其中,描述性分析分为图表法和指标法,主要是适用于统计图表和计量、计数资料;差异性分析正如上述所说一样,针对的是数值型、分类型和等级型资料的检验;而关系性分析作为最高级别的方法,主要是寻找资料之间的关系建立数学模型。