前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FRM 数量分析 区间估计与假设检验

FRM 数量分析 区间估计与假设检验

作者头像
钱塘小甲子
发布2019-01-29 09:42:26
4220
发布2019-01-29 09:42:26
举报

这里开始就是数理统计的东西了,没有接触过的童鞋可能会觉得有点不能接受,其实接触多了也就熟悉了。个人有这样一种感觉,假设检验和区间估计就是概率的概率,或者说,就是概率论的二次方。

先说一下抽样和估计吧。我们现在有一个总体,但是,通常总体的一些统计量的获取是很花时间和金钱的,所以呢,我们就想着抽样。所谓抽样,当然就是从整体中抽一些样本出来。这个时候就有一个问题了,我计算了抽样获得的样本的均值、方差,真的能够描述原来总体的均值、方差么?

按照我们高中的数学知识,确实是这样的,我们算好均值,就可以认为是总体的了。这就是点估计。那什么是区间估计呢?我不告诉你一个点,我告诉你一个区间。这样就有一个问题了,区间可以很大呀。比如说我抽样之后告诉你,总体的平均身高在0到3米之间,这个就有点废话了,所以在区间估计的时候,我们会说置信度,也就是说,多大的概率,这个均值落在这个区间里面。

那么这个怎么计算呢?

所以我们要多次抽样,获得很多的均值,这时候,我们获得的均值是一个随机变量了,那么他就有分布,就有均值(这是均值的均值),就会有方差等等。是不是我之前说的概率论的平方啊。

这个时候,我们要提出一个很重要的定律,中心极限定律。他是这么说的:

你不是抽样么,如果你抽样抽的很多,每次抽样的数量大于30,那么,我们认为你得到的均值的分布是一个正态分布,这个正态分布。既然是正态分布,就会有两个参数,期望和方差。期望就是总体的均值。那么方差是什么呢?方差就是总体方差除以n。

现在,会有两个问题,首先说第一个,万一抽样数量没有30个怎么办?这个时候就要分情况考虑了,如果总体是服从正态分布的,那么还是一样满足;如果总体不是正态分布,那么就不能用这个中心极限定律了。

还有一个问题是,你怎么知道总体的方差?这时候就需要t-分布了。如果你不知道总体的方差,那么我们用样本的方差来代替,但是这时候均值的分布就不是正态分布了,而是一个t-分布。总结一下就是下面这张表。之前提过,当t-分布的样本很多的时候,趋近与正态分布,所以,有时候,正态分布和t-分布都可以使用。

有了上面这样的基础,我们就知道如何获取一个给定置信度下的置信区间了。

譬如我们进行一次抽样,抽取100个,然后计算这100样本的均值和方差,然后根据这一方差除以100得到均值分布的方差。进行正态分布归一化后,利用之前的分位数,就可以获得一个区间了。

这就是区间假设。

如果把上面的步骤反过来,就变成了假设检验了。

在假设检验的第一步,就是写出假设,一个叫null假设,一个叫备择假设。null假设通常是用来拒绝的,那怎么叫拒绝呢,就是我么看他有没有落在置信区间里面。很easy的思想。

但是,不同的假设使用的分布式不同的,比如我们假设均值等于4,那么我们看一下,4在不在我们的区间里面,这个区间你是使用正态分布分位数算出来的;如果判断一个方差是不是某个值呢?这时候就用卡方分布;如果是测试两个分布的方差是否一样的,那么就是F-分布。

这就是所谓的假设检验。当然,还有很多的数学细节,但是思想就是这样。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年08月18日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档