使用图形来评估给定样本的正态性是很常见的。然而,QQ图需要较大的样本量才能可靠地表示被采样的总体。在一些文本中说,至少1000个样本大小是可取的。这是一个示例R代码,描述了这一点:
par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
data <- rnorm(i, mean = 0, sd = 1)
qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
} 该代码生成以下内容:

Question1:我的样本会有多大,假设理论上是-/+6西格玛?从理论上讲,六西格玛事件(正常分布)发生的概率为506797346!你觉得呢?
Question2:无论样本大小如何,在趋势线的两端总会有几个点。这似乎是“正常”和预期的行为。有人能发表一下它背后的原因吗?
Thx,Riad
发布于 2014-04-06 15:45:20
就回答您的问题的一般响应而言,我首先推荐您使用excellent post that covers the topic quite nicely here。下面的评论总结了作者在那里所做的工作。
一般来说,使用Q-Q图,基本思想是根据所讨论的分布计算每个数据点的理论期望值。如果数据遵循选定的分布,则Q-Q图上的点应该大致在直线上。
作为一个总结,可以帮助你指定如何解释这些图,这里有一些指针。请注意,这是一些解释的主观因素,如下所示:
我在工作中使用的SAS有an excellent discussion of Q-Q plot interpretation。正如他们所说,我引述如下:
“一般来说,Q-Q图中的点模式可能不是线性的原因有很多。Chambers等人(1983)和Fowlkes (1987)讨论了对常见的线性偏离的解释。他们提供了很好的起点。下面是一个小总结:
最后,就样本量而言,在判断q-q图离直线有多近时,应考虑样本量。也就是说,对于少量的n,您会期望在Q-Q图输出的行尾发现一些随机变化的偏差。
发布于 2014-04-07 07:32:22
我不认为这个问题形式很好,这对我来说并不令人惊讶,因为我与教授标准六西格玛课程的人的经验是,他们采用了一种宗教,而不是努力学习真正的统计。我不是说你就是这样的人,这是一个基于大约10年前一家公司(GE)流行文化中的抽样的观察,所以这是一个小样本。两个极值上的点的变异性将遵循极值理论的分布参数。
所有的分布都有尾部行为,其特征是分布数量很少。如果你想想是什么决定了极端的分位数,比如说第99.99%的百分位数,抽样行为是非常少的点,即使当四分位数的边界用高precision.because钉住时,它们每个点都有25%或一边的点和75%的点。如果样本大小是100,那么谈论99.5%的百分位数就没有任何意义了,对于1000的样本大小,99.95%的百分位数也是如此,我希望你能看到模式的出现。在谷歌上搜索极值理论。
这也是一个错误的论坛。你应该澄清你所说的“在理论上达到-/+6西格玛”是什么意思。"hit“这个词到底是什么意思?一旦你定义了“点击”的含义,你应该在CrossValidated.com上转发这个问题
https://stackoverflow.com/questions/22890697
复制相似问题