首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第47期 分析阶段列联表

我们已经介绍了适用于连续性变量的统计分析方法,这些方法对于属性数据就不适用了。我们收集到的只是按各种方法分类的计量数据,要分析的问题是判断两种分类方式是否具有独立性。比如:研究某肺部疾病同吸烟之间有无关联,工艺改进和产品合格率有无关联,突发的安全事故和工龄是否有关联等。列联表(Contingency Table)就是用来分析两种方式(两个因子)分组的数据是否独立的常用方法。

为了方便大家理解,我们用一个例子引出一般的列联表独立性假设检验的概念。

例子:某电器公司近期不断收到客户的质量投诉,部分电路板出现故障。质量部门立即成立小组就电路板质量问题进行分析并收集了样本(n=200)。经过同技术部门的讨论,他们认为出现电路板质量问题的根本原因是电路板的焊点缺陷导致的。为此,质量部的人员对200个样本进行了分析,并进行了分类,结果如下:

上图就是列联表,在该分析表中,我们把原因(X)分成“焊点缺陷”和“焊点无缺陷”两组,把结果(Y)也分成“存在电路板故障”和“不存在电路板故障”两组。在电路板存在故障时,存在“焊点缺陷”的电路板数量为52个,“焊点无缺陷”的电路板数量为48个。通过这个分析我们可以看出电路板故障似乎和电路板焊点有无缺陷没有直接关联!同样,在电路板不存在故障时,存在“焊点缺陷”的电路板数量未41个,“焊点无缺陷”的电路板数量为59个,这似乎也看不出有明显的差异。通过这样一个简单的列联表的分析,我们似乎可以说焊点缺陷不是电路板故障的根本原因。那么如果分组的结果如下:

数据的分组似乎说明焊点缺陷是电路板故障的根本原因。

这里说“似乎”是因为我们也有一个疑惑:到底在电路板故障时,“焊点缺陷”与“焊点无缺陷”的差异多大时,我们才会认为“焊点缺陷”是“电路板故障”的原因呢?

这只是列联表的一个简单例子,说简单是因为我们将X和Y均分为了两组,但在日常的工作中我遇到的问题往往可能会分成三组甚至四组,加之我们需要对“差异大”有一个量化的要求,因此,我们引入了列联表中的卡方检验(Chi Square Test)。

列联表要研究的问题就是两个因子之间是否有关联,这种关联性的研究在统计上可以描述为如下的假设检验问题:

H0: 因子A和因子B独立 H1:因子A与因子B不独立

接下来我们还会通过一个例子给大家介绍如何利用Minitab的卡方检验验证X和Y均为计数数据时的根本原因。

例子:一名黑带期望通过对不同区域的产品破损数据进行分析,确定三个不同区域间是否有缺陷率(破损率)的显著差异。即:不同区域的配送条件是影响破损率的关键因素或根本原因。他收集了相关的数据如下:

首先,我们要将该现实问题转化为统计问题,即:

H0: P1 = P2= P3

Ha备择假设:至少有一个区域的比率是不同的

由于涉及到的是多比率假设检验,故我们计划使用卡方检验(Chi Square Test)。

步骤如下:

统计--表格--卡方检验(工作表中的双向表)

结果显示如下:

结果中:

P值=0.003,因此拒绝原假设,即应认为破损率和不同区域相关,或者说不同区域的破损率是不一样的。即不同区域的运输储存条件是导致产品破损率不同的根本原因。

这里,我们就可以通过P值回答之前提出的问题:“到底在电路板故障时,“焊点缺陷”与“焊点无缺陷”的差异多大时,我们才会认为“焊点缺陷”是“电路板故障”的原因呢?”。我们可以这样理解:

我们认为不同的区域是导致破损率差异的主要原因。此时,在α=0.05时我们有99.7%的把握确保区域差异是导致破损率差异的主要因素,或者说我们这个判断出错的概率只有0.3%!

此时,黑带就可以验证出破损率的差异主要是区域差异导致的,进而采取行动就地区差异的情况进行分析并找出降低破损率的行动计划予以改进!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180105G0X79Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券