首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

卡方检验:理想与现实的差异,到底是谁造成的?

文 / 杨贤俊

为了更好的让卡方检验为正义的人类服务,必须要先跟大家说一下卡方检验的思想和原理。

我们先举个例子:假如小编想了解两种清洗方法对管腔器械的清洗效果,对200件管腔器械采用方法A进行清洗,检测合格数为190;对240件器械采用方法B进行清洗,检测合格数为185。最终结果如下表。

还记得上次我们学过的假设检验思想吗?同样的,就按照假设检验的步骤来操作。

首先,还是要做出假设:姑且认为两种方法没啥差别。或者说,方法A和方法B清洗器械之后的合格率是一样的。接下来就是最刺激的事情——我们要紧紧抓住这个假设开始顺藤摸瓜的推断了。

按照你说的,两种方法清洗后的合格率一样,那这个合格率是多少呢?是85.22%。因为所有器械清洗下来,总的合格率为375/440=85.22%。

既然合格率都相同了,那么方法A清洗后合格的件数就应该是200*85.22%=170件,方法B清洗后的合格率就应该是240*85.22%=205件,对吧?

但是,你会发现,我们推算出来的这两个数,跟原来表格中的数就不一样了呀!

其实,我们推算出来的170件和205件,这些数字专业叫法是理论频数(T),而原来的190件和185件叫做实际频数(A)。你看,理想和现实难以如愿一致,自古如此,莫要强求!

理论频数和实际频数不相符,造成这种差异的原因有两个:

1、抽样误差造成的。即使两种方法清洗效果一样,也有可能存在两个抽样中恰好出现170件和205件,而不是190和185。如果最后证实是抽样误差造成的,好,我们原谅你,承认你的假设是对的,两者没有差别,对这一次出现的差别,善良滴理解为只是碰巧罢了,我们大人不计小人过。

2、你的假设错了。既然假设错了,那么推算出来的理论频数和实际频数肯定是不一样的了。

所以,现在面临的问题是:这个差异到底是哪个原因造成的呢?下面有请我们的卡方检验闪亮登场!

(A为实际频数,T为理论频数)

原谅我又插入了一个数学方程,因为我觉得讲统计学的时候不带数学方程,简直是在耍流氓。

从这个公式优雅的长相,就可以知道,χ2值是反映理论频数和实际频数的差异大小,差异越大,χ2值越大;反之,χ2值越小。

如果你的假设成立,则A=T,此时χ2=0.但由于抽样误差是神仙都难以避免的,所以一定会出现χ2值不等于0,不过我可以保证,这个χ2值一定不会很大。如果χ2值太大,就无法用抽样误差来解释理论频数和实际频数的差别为何如此巨大了。

那么χ2值到底多大才算不大呢?可以根据卡方分布表来查到这个数,查得当χ2值大于3.84时,概率就小于0.05.这是个小概率事件。也就是说,当χ2>3.84的时候,因抽样误差而造成的理论频数和实际频数之间的差异,其概率只有0.05这么大。所以就不大可能是因抽样误差造成的了,而是由第二种情况造成的。那就拒绝了那个假设,认为两个组的清洗效果有差异。

到了这里,其实我们就可以自己根据公式算出来χ2值了,然后拿着这个值去表里查出概率P值就行了。

不过这是古人的做法,作为一个现代人,不用统计软件(SPSS)来计算,实在可惜得很。

上一期《医学统计学中,你为什么要用假设检验?》文章留言打卡获奖粉丝@小兔子,本期特别为你推送此续篇,请笑纳!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710G0MFDY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券