前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学基础(二)

统计学基础(二)

作者头像
用户5473628
发布2019-08-08 11:01:57
6350
发布2019-08-08 11:01:57
举报
文章被收录于专栏:MiningAlgorithms

1,中心极限定理,大数定律:

大数定律就以严格的数学形式表现了随机现象的一个性质,平稳结果的稳定性(或者说频率的稳定性);

大数定律从理论上解决:用频率近似代替概率的问题,用样本均值近似代替理论均值。

中心极限定理:当样本量N逐渐趋于无穷大时,N个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。

两者区别:

大数定律是说,n只要越来越大,我把这n个独立同分布的数加起来去除以n得到的这个样本均值(也是一个随机变量)会依概率收敛到真值u,但是样本均值的分布是怎样的我们不知道。

中心极限定理是说,n只要越来越大,这n个数的样本均值会趋近于正态分布,并且这个正态分布以u为均值,sigma^2/n为方差。

这两个定律都是在说样本均值性质。随着n增大,大数定律说样本均值几乎必然等于均值。中心极限定律说,他越来越趋近于正态分布。并且这个正态分布的方差越来越小。直观上来讲,想到大数定律的时候,你脑海里浮现的应该是一个样本,而想到中心极限定理的时候脑海里应该浮现出很多个样本。

中心极限定理的一个通俗例子:现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。

值得注意的是:

1),总体本身的分布不要求正态分布: 上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。

2),样本每组要足够大,但也不需要太大: 取样本的时候,一般认为,每组大于等于30个,即可让中心极限定理发挥作用。

2,置信区间

定义:置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。

点估计与区间估计:

以生活中的买双色球彩票为例:点估计就是买一张双色球中奖的概率;而区间估计就是买一砸彩票,这一砸里面有一个中奖的概率。

置信区间是指由样本统计量所构造的总体参数的估计区间,展现的是这个参数的真实值落在测量值(推测值)的周围的可信程度。我们可以使用[a, b]

表示样本估计总体平均值的误差范围的区间,[a, b]就被称作置信区间。

同时,我们选择这个置信区间,目的是为了让“a和b之间包含总体平均值”这一结果具有特定的概率,就是置信水平。

上图中:样本均值以95%的概率落入区间[-2, 2]

以下海捕鱼为例:我知道一百次网下去,可能会有95次网到我想要的鱼,但是我并不知道这一网能不能捕到想要的鱼。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MiningAlgorithms 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档