我不明白Rmisc包中的summarySE()是如何计算数据的置信区间(ci)的。这些价值观似乎不正确。
例如,在运行summarySE(data = df, measurevar = "numbers", groupvars = "conditions", conf.interval = 0.95)
之后,输出显示:
conditions N numbers sd se ci
1 constructionA 10 6.025 0.3987829 0.1261062 0.2852721
2 constructionB 10 1.925 0.3545341 0.1121135 0.2536184
constructionA的置信区间为6.025±1.96x (0.398729)/√10,为6.025±0.24716366。我不明白在应用summarySE之后,0.2852721的值来自哪里.不是0.24716366吗?
有人能告诉我这里出了什么问题吗?
谢谢!
发布于 2022-09-14 04:25:46
置信区间的一个共同构造是
(统计) +/- c*(统计标准误差)
其中c是临界值。c=1.96是(大约)一个正态分布的z统计量和95%置信区间的临界值,但这不是CI定义的一部分,它只是当你认为你的统计数据是正态分布时得到的CI。
然而,大多数置信区间的计算,包括summarySE()
,都使用t分布而不是正态分布来计算临界值,因为当样本规模很小时,它们产生的结果比正态分布更精确(当样本规模较大时,结果几乎相同)。
在这里,您的样本大小仅为N=10,因此正态分布1.96与t统计量临界值之间的差异是明显的。10-1 =9自由度t分布的2.5百分位数是qt(.025, 9) =
-2.262157.因此,对于双边95%的置信区间,c= 2.262157 .
0.1261062*2.262157 = 0.285272,这就是置信区间列的来源。
https://stackoverflow.com/questions/73711259
复制相似问题