统计常见问题

1. Misconception A

Standard scores, such asz-scores andT-scores,are normally distributed.Whatever non-normality exists in the raw scores will be transferred directly toz-scores andT-scores.Thus, if a set of raw scores has a mild, negative skew, the set ofz-scores(orT-scores) based on the raw scores will have a mild, negative skew.If a set of raw scores is “overly peaked”, converting the raw scores toz-scores(orT-scores) will not bring about normality; the standard scores will be just as overly peaked as the original raw scores.

2. Misconception B

In testing a null hypothesis, thep-valuebased on the sample data indicates the probability thatHois true.One important area of statistics is probability, and one important kind of probability is aconditionalprobability. In our everyday lives, we frequently compute conditional probabilities in ourminds. For instance, if we must decide whether to take an umbrella with us whenwe leave home, we typically ask ourselves the question, “Given the weather forecast for today, what’s the likelihood that it will rain?” In making everyday decisions, or in using data to evaluate a null hypothesis, it’s important to realize that the probability of “XgivenY” is often different from the probability of “YgivenX.” It can matter greatly whether it isXorYthat’s assumed to be true. Because thep-value plays such an important role whenever a null hypothesis is evaluated, it’s important for you to understand thatpis a conditional probability and to be aware of what’s given.

3.卡方检验使用的误区

外语教学研究错误使用卡方检验的问题严重。究其错误原因,有以下4种情形,有时多种情形并存于同一项研究中:(1)研究数据不是频数,对连续性因变量组间多个水平上的比较错误使用卡方检验。(2)频数数据不独立。(3)计算事件发生的频数时却没有计算事件未发生的频数,恰当的做法是同时计算事件发生与未发生的频数。(4)对配对样本频数差异错误采用卡方检验,正确的方法是采用McNemar检验。

4.统计显著性检验的一个认识误区

在统计显著性检验中,我们假定零假设为真,并以之为前提得出出现研究之值或更极端之值的概率(p),再根据概率值的大小对零假设进行反推。如果p值小于显著性水平(a),我们就有足够的证据拒绝零假设。p值反映拒绝或不拒绝零假设所得证据的充分性程度。在统计显著性检验中,p值是反对零假设的归纳性证据(inductive evidence)。小的p值表示研究发现不可能是随机性的结果,表示有证据拒绝零假设。下面举了例子。假设你用一个实验组和一个对照组做一次教改试验,各组人数均为30人。实验结束后,你对两个组的成绩进行独立样本检验,得到以下结果:t= 2.5,df= 58,p= .015。如果以a=.05为统计显著性水平,你是不能得出以下结论的:

1你证明了零假设(即总体平均数之间没有差异)为误。

2你证明了备择假设(即总体平均数之间有差异)。

3你发现了零假设为真的概率是1.5%。

4你可以推断出备择假设为真的概率为98.5%(1-1.5%)。

1和2的错误在于显著性检验只提供统计量检验的概率信息,不能证明某个假设为真或为误。零假设要么为真,要么不为真。它不是随机的,不存在概率。对于研究假设也一样。从本质上讲,显著性检验只是表示在零假设为真的情况下,通过无数次取样某研究证据出现的可能性,不能给任何假设提供成立的概率,所以3和4都是错误的。针对本例,可以认为,鉴于在零假设为真的情况下,出现本研究结果或更极端结果的概率很低(p= .015 a= 0.05)的概率错误地拒绝零假设。

5.混淆显著性和重要性

显著性检验的一个认识误区是统计上显著性的结果总是有实际意义(importance)或在总体中有很大的效应。对于一个非常大的样本而言,很小的差异也可能有统计上的显著意义,但是统计上的显著意义不能等同于实际意义。统计意义(statistical significance)和实际意义(practical importance)是两个不同的概念。下面举个例子(Agresti & Franklin 2009)。2006年美国开展了一项社会普查。调查的问题是:美国人的政治立场总体上倾向于开放还是倾向于保守?调查采用问卷形式,为7点式量表:非常开放(1分),开放(2分),有些开放(3分),折中(4分),有些保守(5分),保守(6分)和非常保守(7分),共收集问卷4333份。描述性统计量为:M= 4.12,s=1.41。本研究的零假设是美国人持中间立场(均分为4分),即H:μ= 4。备择假设是:H:μ≠4。总体参数值μμ> 4表示美国人倾向于保守。根据单样本t检验,得到。该统计量的双尾值为.00000002,构成拒绝零假设的有力证据。如以此判断,便可得出美国人倾向于保守的结论。但是,鉴于样本平均数与零假设中的平均数差异很小,我们实际上会把平均数4.12看作是“折中的”

6.误区:处理组在协变量上没有显著差异时无需使用协方差分析

被试向处理组的随机分配从概率上确保了各组在多个被测量和未被测量的变量上是对等的。社会科学研究较少在随机化实验中使用协方差分析。究其原因,有些研究者认为,既然随机分配已经确保了处理组在实验前的对等性,再利用协变量进行协方差分析使处理组在协变量对等是多余的。诚然,在理想化的随机分配中,处理组在各个特征变量上完全是对等的,用协变量调整处理组平均数之间的差异是没有必要的。但是,这并不意味着利用协变量进行协方差分析是没有必要的。只要协变量与因变量有较强的线性关系,协方差分析就会减少误差方差,提高统计效力。在理想化的随机化设计中,协变量与处理变量完全独立,与因变量有很强的线性关系。协方差分析不改变处理组平均数差异的大小,统计分析只将协变量产生的变异从误差中排除出去,减少实验处理的误差。因此,随机分配是协方差分析的理想条件。

7.误区:处理组在协变量上有显著差异时才需使用协方差分析

在随机化设计中,如果协变量与因变量有较强的线性关系,不管处理组在协变量上是否有显著差异,都应使用协方差分析。不管协变量值为何,只要向处理组的分配使得每位参与者都有同样的机率处于任何一个处理条件之中,那么就可以使用协方差分析,哪怕某个随机分配的实例看起来多么具有非随机性。随机分配后处理组在协变量上有显著差异时,组间协变量上的差异被视作随机误差,协方差分析的目的是双重的,即减少组内误差和消除(或减少)协变量对处理效应的干扰。

在外语教学研究中,由于条件的限制,随机化实验没有准实验设计或观察性研究普遍。在准实验设计或观察性研究中,研究者对实验组之间实验前差异性质的判断必须谨慎。Lord(1967)举的例子是调查大学膳食对学生体重的影响是否随性别的变化而变化。Lord假设体重有差异的两个自然组(男生平均体重大于女生的平均体重)在学年初和学年末的平均体重(前测和后测)均没有发生任何变化,数据的分布也没有发生变化(就个体而言,学生体重允许有变化)。一种统计方法(前后测增分t检验或方差分析)发现膳食对男、女组学生的体重的影响没有差异(因为每组平均增分为)。

另一种统计方法采用协方差分析,发现男生相对于女生平均体重显著增加。这两种截然不同的结果即为著名的洛德悖论(Lord’s paradox)。洛德悖论给结果的解释带来了挑战。在使用自然组的设计中,如果研究者认为自然组处理前的差异是系统差异,则不应使用协方差分析,增分t检验或方差分析是合适的选择。这是因为,增分t检验或方差分析回答的是一个有意义的问题,即组间的变化有无差异。协方差分析回答的是一个基于有条件假设的问题,即如果自然组前测没有差异,那么后测是否有差异。如果自然组在协变量上的差异是系统差异,协方差分析假设“自然组前测没有差异”很可能就没有多大意义。当组间变量与协变量相关时,我们时常不知道使用协方差分析排除协变量后的组间变量代表什么。譬如,如果男、女学生总体平均体重有差异(在自然组设计中这种假设通常是合理的),那么协方差分析基于男、女学生组平均体重没有差异的前提检验两个组后测体重的差异是没有意义的。此例使用协方差分析得到的男、女生后测平均体重差异的结果只是向平均数回归造成的假象而已。

在前节关于阅读策略教学的例子中,实验使用的两个组是两个自然班,如果没有特别的理由认为这两个班的学习者在实验前就代表着两个不同的学习者总体(通常如此),那么使用协方差分析就是合适的。在对自然组使用协方差分析时,协方差分析调整的后测平均数是假设自然组在前测协变量上相等时可能得到的因变量值,因而研究者需要考虑在协变量上相等的自然组是否在现实世界中存在。换言之,如果研究者有理由认为自然组处理前的差异是随机误差,不是系统差异,则可以使用协方差分析。

8.误区:裂区设计中错误使用协方差分析

如果研究者没有意识到协变量只调整组间因素的效应,不影响重复测量因素的效应,就会错误地使用所谓的混合协方差分析,得到如表2所示的结果。由于协变量不影响重复测量因素的效应及其与组间因素的交互作用,正确的选择是对组间因素主效应采用协方差分析,对重复测量因素主效应及其与组间因素的交互作用采用混合方差分析。

协方差分析误用的一个典型案例是Vidal(2011)(A Comparison of the effects of reading and listeningon incidental vocabulary acquisition.LanguageLearning61 (1): 219-258.)。在检验习得来源(sourceof acquisition)和学习者语言水平对二语词汇即时和延时习得的影响时,作者将语言水平作为协变量,错误地采用3(习得来源:听讲座、阅读和无输入)×3(测试:前测、即时后测和延时后测)混合协方差分析。恰当的统计分析方法是上面提到的协方差分析和混合方差分析并用。即是说,在统计假设满足时,对习得来源(被试间因素)的效应检验采用协方差分析,语言水平(还有可能包括前测)作为协变量,用测试(重复测量因素)的平均数作为因变量值。对测试的主效应及其与习得来源之间的交互效应检验采用混合方差分析。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180603G00C9F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券