一文了解什么时候需要加权数据？

文章来源：企鹅号 - SPSSAU

大家好！这里是SPSSAU。

最近有看到用户在答疑群里提问到“加权数据”的问题，才发现对于刚刚开始接触数据分析的人来说，数据格式这块内容似乎容易出现问题。于是SPSSAU决定写下这篇教程，希望通过简单的讲解，帮助大家更好地理解。

按照正确的格式上传数据，是展开下一步分析工作的基本前提。一般来说，有两种数据格式：原始数据、加权数据。

原始数据格式

原始数据，也就是我们一般通过测量、调研等方法，得到的未经汇总的样本数据。

原始数据格式的特点是：一行代表一个样本，如果有100个样本即为100行；一列代表一个属性。

这类格式最为常见，因为携带着所有最原始的数据信息，此类数据格式可以做任何的分析。

加权数据格式

在某些情况下，我们得到的不是原始数据，而是经过整理的汇总统计数据。像是实验研究中，常常会得到下面这样格式的数据：

类似这样的格式，不能直接使用的，需要整理成加权数据格式再上传。

加权格式的特点是：每一行代表一种情况，有几种可能出现的情况，对应就要有几行数据。比如上图中，有两个组别，每个组别分别对应三种不同的疼痛程度，也就是2×3，一共有6种情况。其中一列表示组别，一列表示疼痛程度，一列表示频数。

这类格式在医学研究中较为常见，并且只有涉及到定类数据才会使用加权数据。

加权数据方法选择

由于加权数据都是要进行定类数据的分析研究，因此最常使用的方法是进阶方法中的【卡方检验】。

卡方检验操作方法也很简单，减肥方式与胆固醇水平分别放入X/Y框中，频数放入加权项。

分析结果

卡方检验适用于大部分定类数据研究，但还有几种情况下，不适合使用卡方检验：

定类数据与等级数据的差异研究

当我们想考察定类数据与等级数据的差异情况时，可以使用【实验研究】模块中的【Ridit检验】或者通用方法中的【非参数检验】。如果是加权格式数据，则使用Ridit检验。

类似的研究在医学领域常常出现，如比较2种不同治疗方法的疗效，其中疗效分别为4个等级（治愈、显效、好转、无效）。

如果是原始数据，则不用放加权项。

分析时首先看P值大小，如果有显著性，可进一步对比平均Ridit值。如果等级是由劣到优的顺序，则平均Ridit值越大越好，反之，越小越好。

案例中是由优到劣的顺序，药物A的平均Ridit值明显高于药物B的平均Ridit值，说明药物B的疗效更好。

对比两组相同属性的定类数据

比如想考察不同的诊断方法是否在诊断结果上是否具有一致性或差异性，可以使用【实验研究】模块中的【Kappa检验】或【配对卡方】。

两种方法的功能非常相似，主要区别在于，Kappa系数用于衡量配对数据的一致性，配对卡方倾向于对比配对数据的差异性。一个是看差异，一个是看一致性。

以上就是今天为大家介绍的加权数据相关知识，更多内容登录SPSSAU官网查看。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货