DASI_3 _CI&HT

用户1147754

发布于 2018-01-02 17:18:22

5440

发布于 2018-01-02 17:18:22

文章被收录于专栏：YoungGy

logic
sampling variability CLT
- sampling distribution
- CLTconditions for CLT
  - CLT
  - 10 condition
  - sample sizeskew condition
  - others
confidence intervalfor a mean
- what is it
- conditions
- finding and interpreting
accuracy vs precision
- confidence level
- width of an interval
- trade-offs
required sample size for ME
- sample size vs accuracy
CI examples
another introduction to inference
- review simulation based inference
- review hypothesis testing framework
hypothesis testing for a mean
- p
- HT via CI
- formal HT using p-value
- one and two-sided HT
- procedure
inference for other estimators
decision errors
- type 1 and 2 error
- balancing
significance vs confidence level
statistical vs practical significance

logic

sampling variability -> central limit theorem -> statistical inference -> confidence intervals & hypothesis tests -> significance & confidence & power

sampling variability & CLT

sampling distribution

考虑m个sample，每个sample的容量为n。

mean(x⎯⎯)≈μmean(\overline{x}) \approx \mu SD(x⎯⎯)<σSD(\overline{x}) < \sigma ，前者被称为standard error，当n增加的时候，standard error减小。

衡量群体的分散情况用standard deviation 衡量样本值的分布情况，使用standard error

CLT+conditions for CLT

CLT

一般来说，如果群体正态分布，那么不论n(sample size)多大，都是符合正态分布的。当非正态也就是偏斜程度增加，需要提高n去保证sample distribution的正态分布。一般来说，n>30即适合。

10% condition

注意：抽样的话应该保证样本的独立性，因此如果是without replacement的取样的话（一般研究都这样），那么样本的数量不应该超过总体数量的10%。我们喜欢large sample，但是也不能太大了啊。

举个例子，从一个1000人的村子抽人，如果样本是10个的话，那么抽到你和你家人的概率很小。但是如果样本是500个的话，抽到你和家人的概率就很大。这样的话，因为一家人不是相互独立的，所以会对结果造成偏差。

sample size/skew condition

如果样本分布式skew的话，那么随着样本容量n的增大。样本mean的分布逐渐趋向于正态分布，mean(x⎯⎯)mean(\overline{x}) 逐渐趋向于μ\mu，SD(x⎯⎯)SD(\overline{x}) 逐渐变小。

others

即使知道样本的mean和sd，也不可以根据正态分布的z值计算某个区间的概率。因为群体的分布不一定是正态分布的，解决办法是求出群体的概率密度函数或者分成区间计算histogram。

confidence interval(for a mean)

what is it

使用置信区间可以更好的捕捉到population parameter，比使用单个参数的效果好。

逻辑：我们知道sample parameter的分布是符合正态分布的，也就是说根据68-95-99.7准则，我们有95%的置信率，保证我们所选取的样本的参数是在两个sd内的。因此在样本参数的基础上，加减两个sd，便有95%的可能性保证群体的参数落在这个区间。

conditions

It’s connected to the CLM.

CI是建立在CLM的基础上。因此两者的适用条件有相似的地方。但是，对样本集的大小，CI要求更为严格。

finding and interpreting

qnorm()
pnorm()

accuracy vs. precision

accuracy：CI是否包括了population parameter precision：CI的宽度

这两个，通常是矛盾的。

confidence level

confidence level的含义是：根据CLM，sample parameter的分布是正态的。所以假设我们取了很多的样本，对每个样本都计算95%的CI。那么，在所取的样本中，大约只有95%的样本落在了2个se内，因此用95%CI估计的区间，大约只有95%的区间包括了population parameter。简单来说，CI就是我们的confidence internal包括群体参数的概率。

CI是关于群体的，不是关于个人的，也不是关于样本的。

width of an interval

confidence level提升的话，confidence interval也会变得更宽，因此才有更大的可能性去包括群体参数值。

如果想要提高accuracy的话，那么需要提高confidence level。但是提升的同时，会带来一些cost。具体表现在，confidence interval也变高了，引起了precision的降低。

trade-offs

提高样本大小。

required sample size for ME

一些时候，我们需要保证margin error在一定的范围之内，这样的precision才可以保证答案是有意义的。这样的话，我们需要知道sample的大小。

sample size vs. accuracy

CI examples

another introduction to inference

review simulation based inference

思路是：比较男女晋升是否有差异。可以先假设两者无差异，然后做两者差的分布。最后将两者的实际差值与理想的分布差值作比较，如果足够extreme，就表示在null hypothesis的基础上获得该数据实际结果的可能性太低，因此拒绝这个假设。

review hypothesis testing framework

hypothesis testing (for a mean)

p

HT via CI

如果H0在CI中，那么就不能拒绝H0。

这是一种很粗略的方法，因为他不能给出明确的置信度，也就是哦p-value。

formal HT using p-value

首先，根据样本的数据算出样本的参数，比如n,x⎯⎯,s,sen,\overline{x},s,se，然后假设H0是正确的，根据这些参数做出sample distribution。接着，考虑HA对应图中的位置，如果足够偏（p值足够小），那么就可以拒绝H0的分布，也就是拒绝H0。

解释p-value

one and two-sided HT

procedure

inference for other estimators

条件

estimator is unbiased
which has a nearly normal sampling distribution

不同的estimator，只是SE不同

之前主要讨论了Population mean的估计。同样，也有很多其他的estimator。

这是estimator得保证是unbiased，这样才能保证估计的准确性。

decision errors

sometimes,we make mistakes

type 1 and 2 error

balancing

significance vs. confidence level

so far, we’ve been using two inference techniques–HT and CI. 如果使用相同标准的话，他们的结果应该是相同的。

通常，significance level和confidence level是互补的。比如前者5%，后者95%。两者是否互补为1取决于做的是单尾检定还是双尾检定。

statistical vs. practical significance

当考虑practical significance时候，主要关注effect size。

effect size定义为： difference between point estimate and null value。

如果effect size很小，也就是point estimate和null hypothesis很接近的情况下，并不能很好地保证statistical significant。但是，可以通过增加sample size，保证statistical significant。

需要先分析搜集多少数据。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

数据处理

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据处理

登录后参与评论

0 条评论

热度

DASI_3 _CI&HT

DASI_3 _CI&HT

logic

sampling variability & CLT

sampling distribution

CLT+conditions for CLT

CLT

10% condition

sample size/skew condition

others

confidence interval(for a mean)

what is it

conditions

finding and interpreting

accuracy vs. precision

confidence level

width of an interval

trade-offs

required sample size for ME

sample size vs. accuracy

CI examples

another introduction to inference

review simulation based inference

review hypothesis testing framework

hypothesis testing (for a mean)

p

HT via CI

formal HT using p-value

one and two-sided HT

procedure

inference for other estimators

decision errors

type 1 and 2 error

balancing

significance vs. confidence level

statistical vs. practical significance

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐