首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SPSS统计分析基础版无序分类变量的统计推断——卡方检验

变量可以分为连续变量和分类变量两大类,后者又可以被分为有序和无序变量两种。对于各组所在总体定量变量的平均水平,可以使用t检验和方差分析方法进行比较,秩和检验则用于比较各组所在总体有序分类变量的分布情况是否相同,卡方检验主要用于无序分类变量的统计推断。

一、卡方检验概述

卡方检验的方法原理是频数原理,基于原假设H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来。

989个家庭里,有257个家庭有轿车,拥有率是26%。如果H0成立,理论上,中低收入家庭应该是335*26%拥有轿车,相应的中高收入家庭应该是654*26%拥有轿车,也就是下表中的期望计算87.1和169.9,如下操作。期望值与实际值之间是有差值的,这个差值我们成为残差,如下操作。

设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差,残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:

从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0,观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和自由度有关。显然,卡方值的大小不仅与A、E之差有关,还与单元格数(自由度)有关。

操作单样本案例,2007年4月的被访问者的性别是否平衡,操作“分析——非参数检验——单样本”,最后的结果是0.083,与二项分布检验0.094略有差异,这是因为此处卡方检验给出的是近似p值,而二项式给出的确切p值,由于本案例样本量充足,因此两者差异不大,但如果要论准确性,二项分布的正确性更高。操作结果也可以通过“分析——非参数检验——旧对话框——卡方”来得到,最后结果相同。

操作两样本案例:不同收入级别家庭的轿车拥有率比较,操作“分析——描述统计——交叉表格”

皮尔逊卡方这一行是常用的卡方检验,结果显著,那就拒绝H0,接受H1,认为两个组的轿车拥有量是不同的;上标a是对于卡方检验做了适用条件分析,卡方检验最大的问题在于我们的数据是频数数据,不可能是小数,而卡方分布是连续分布,可以连续取值的,当我们样本比较小的时候,连续性与分段的频数之间会出现比较大的差异,两者的差距是不能被忽略的,因此需要进行连续性校正,连续校正只适合用于4表格资料,在样本含量大于40,所有单元格的期望频率均数大于1,且只有1/5以下的单元格的期望频数小于5大于1时,要对卡方统计量进行连续校正。看上标a,如果上标a有单元格小于5的,要看连续性校正的数据,如果没有,不需要管校正问题,而且连续性校正只会针对2x2表格。似然比与皮尔逊卡方相比,检验的是同样的H0假设,即行变量与列变量之间的相互独立,不同的是卡方的计算公式不一样,在处理多维表时有更大的优势,但在大多数情况下,两者的结论是基本一致的。线性卡方,检验的H0假设是行变量与列变量之间的无线相关。

二、两分类变量间关联程度的度量

卡方检验可以从定性的角度告诉用户两个变量是否存在关联,当拒接H0时,在统计上有把握认为两个变量存在关联,但如果两个变量存在相关性,它们之间的关联强度有多大,有没有什么指标可以客观表示其大小,这里需要解决的就是这个问题。

相对危险度(relative risk,RR):亦称危险度比,是暴露组的危险度(测量指标是累积发病率)与对照组的危险度之比。暴露组与对照组的发病密度之比称为率比(rate ratio)。危险度比与率比都是反映暴露于发病(死亡)关联强度的指标。相对危险度(relative risk,RR):又称率比(rate ratio),是暴露组发病率(Ie)与非暴露组发病率(Iu)的比值。相对危险度表明暴露组发病率或死亡率是对照组发病率或死亡率的多少倍。人体受到辐射照射时,体内某一组织或器官随机性效应的危险度系数与全身受到均匀照射时总危险度系数之比。

优势比(odds ratio;OR)是另外一种描述概率的方式。优势比将会告诉我们某种推测的概率比其反向推测的概率大多少。换句话说,优势比是指某种推测为真的概率与某种推测为假的概率的比值。比如下雨的概率为0.25,不下雨的概率为0.75。0.25与0.75的比值可以约分为1比3。因此,我们可以说今天将会下雨的优势比为1:3(或者今天不会下雨的概率比为3:1)。

案例家庭收入级别与轿车拥有情况的关联程度,从上面操作可以看出,中高收入家庭拥有轿车的比例更高,现在可以通过以下操作来描述OR、RR等关联强度。

三、一致性检验与配对卡方检验

在pearson卡方检验中对行变量与列变量的相关性已经做了检验,其中行变量和列变量是一个事物的两个不同属性。还有一种联列表,其行变量与列变量反映的是一个事物同一属性的相同水平,只是对该属性各水平的区分方法不同,这相当于在研究设计中采用了配对设计,例如一张表里面显示某项疾病的诊断结果,列变量是一种诊断方法,行变量是另一种诊断方法,希望检验这两种区分同一属性的方法给出的结果是否一致,此时不应当使用pearson卡方检验,因为无法适用于这种配对设计数据,应该使用Kappa一致性检验。

可以简单说,pearson卡方只能告诉用户两种测量结果之间是否有关联,但不能判断其是否有一致性,例如医生A分别诊断轻度、中度、重度疾病患者,医生B分别诊断中度、重度、轻度疾病患者,则两者的诊断结果不具有一致性,卡方检验是显著的,但pearson检验是具备关联性。

某公司期望扩展业务,增开几家分店,但对开店地址不太确定。于是选了20个地址,请两位资深顾问分别对20个地址作了一个评价,把它们评为好、中、差三个等级,以便确定应对哪些地址进行更进一步调查,那么这两位资深顾问的评价结果是否一致?打开数据site,先加权个案。

KAPPA(K)的值是一致性指标,也就是原假设是两个顾问各干各的,评价没有一致性,结果显示显著,那么就是有一致性的,kappa的值是0.429是比较弱的,这两个顾问评价体系是有关联的,但是不强,这就需要我们去询问这两个顾问他们是如何评价的,也许一个侧重交通,一个侧重环保。

概率中说的实际一致率是说观点都一样,所以是都评价相关的22+都评价不相关的11,总共评了39次,因此(22+11)/39就是实际一致率

通过Kappa检验已经回答了两种测量间究竟有无一致性的问题,但是观察列联表,会发现两位顾问的评价似乎不太一样,此时运用配对卡方检验,配对卡方检验是侧重考察其差异性,卡方检验是侧重考察一致性,显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计。按照配对设计的思路进行分析,则首先应当求出各对的差值,然后考察样本中差值的分布是否按照H0假设的情况对称分布(例子中就是说对于同一个地点,两个顾问评价的倾向,是倾向往好的评价还是不好的评价)。按此分析思路,最终可整理出如前所列的配对交叉表,注意:主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献,非主对角线上的单元格才代表了检验方法间的差异,假设检验步骤如下(以四格表为例):H0:B = C,H1:B ≠C。

H0假设是两个专家评价是一样的,而M-B检验这个是显著,说明有偏差的,各自解决的是两个方面的问题

四、分层卡方检验

由于设定了分层变量,因此该输出会对每一层单独进行风险估计,同时会给出合计样本的风险估计,仅从OR值就可以看出,北京、上海、广州三地的OR值虽然都不等于1,但样本估计值并不相同,上海的OR值只有0.089,而广州则高达0.333,这种差异究竟是抽样误差还是真实存在的总体差异,仅靠普通的卡方检验/风险估计是无法回答的,也就是说从样本上看,我们有理由怀疑拥有汽车的样本组比例差距不同,究竟是否在不同的城市里,这些差距是不同的呢,因此我们考虑分层分析。分层卡方检验的结果可以先看“比值比齐性的检验”,这是层间差异的检验结果,两种检验方法结果相同,即在不同城市,行列变量的关系强度并不相同,因此不应该考虑将不同城市的数据结合起来进行分析。这其实也意味着城市这个因素对行列变量关系存在交互作用,需要在模型中引入交互项。

“条件独立性检验”的结果是卡方检验的结果,即去除了分层因素的影响后,对行列变量关系强度的检验结果,给出了两种方法计算的结果,P值小于0.5,可以认为收入级别与轿车拥有量有关联。

比值比齐心性是不同之间城市有轿车的差异是否一样,显著,也就说明不一样。条件独立性检验是校正后不同城市之间有轿车的差异后,也就是说考虑了不同城市的差异,那么是否还与收入有关,(条件独立性检验必须比值比齐心性显著才能用,因为上面所结果不一样,那么就不能进行合并。

五、如何阅读卡方检验结果

(一)教科书的看法

当n≥40且所有T≥5时,用普通的卡方检验,若所得P约等于Alpha,改用确切概率法;

当n≥40但有1≤T

当n

(二)实际的做法

一律向下看齐

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180325G0P76F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券