我想看看我的数据中组内均值的差异是否具有统计学意义。
如何对像这样长格式的数据运行卡方检验?
Country Year Value
Country A 1 2
Country A 2 3
Country A 3 3
Country B 1 6
Country B 2 7
Country B 3 6
Country C 1 9
Country C 2 8
Country C 3 9我不知道如何在同一变量上运行卡方检验,但对不同的组(国家)。
谢谢
发布于 2012-04-03 06:22:17
对于大多数这样的统计测试,您需要将数据从长格式重新格式化为适当的宽格式。我喜欢reshape2包来帮助处理这类事情。
例如:
> x <- read.table(text = "Country Year Value
+ Country.A 1 2
+ Country.A 2 3
+ Country.A 3 3
+ Country.B 1 6
+ Country.B 2 7
+ Country.B 3 6
+ Country.C 1 9
+ Country.C 2 8
+ Country.C 3 9", header = TRUE)
>
>
> library(reshape2)
> wide <- dcast(x, Country ~ Year, value.var = "Value")
> wide
Country 1 2 3
1 Country.A 2 3 3
2 Country.B 6 7 6
3 Country.C 9 8 9现在,它更接近于chisq.test()或您可能感兴趣运行的任何其他测试所需的格式。第一行包含很可能需要从分析中排除的国家/地区列,因为它与计数无关:
> wide[, -1]
1 2 3
1 2 3 3
2 6 7 6
3 9 8 9我将留给您来决定什么测试适合您的数据。
发布于 2012-04-03 06:26:46
您还没有指定要测试的假设,因此还不能应用“卡方检验”。(事实上,你指定了一个你不确定实现的特定案例,这表明他可能是家庭作业。)从您提供的数据可以很清楚地看出,这些行根本不是独立的。您只有三个国家/地区,然后在连续的时间间隔内重复测量具有整数值的对象。这些都算吗?如果这是为了讨论目的而简化更丰富的数据集,那么您需要修改您的问题,并努力构建一个realistinc测试用例,以便可以提供实质性的评论
https://stackoverflow.com/questions/9983894
复制相似问题