FRM 数量分析区间估计与假设检验

钱塘小甲子

发布于 2019-01-29 09:42:26

4490

发布于 2019-01-29 09:42:26

这里开始就是数理统计的东西了，没有接触过的童鞋可能会觉得有点不能接受，其实接触多了也就熟悉了。个人有这样一种感觉，假设检验和区间估计就是概率的概率，或者说，就是概率论的二次方。

先说一下抽样和估计吧。我们现在有一个总体，但是，通常总体的一些统计量的获取是很花时间和金钱的，所以呢，我们就想着抽样。所谓抽样，当然就是从整体中抽一些样本出来。这个时候就有一个问题了，我计算了抽样获得的样本的均值、方差，真的能够描述原来总体的均值、方差么？

按照我们高中的数学知识，确实是这样的，我们算好均值，就可以认为是总体的了。这就是点估计。那什么是区间估计呢？我不告诉你一个点，我告诉你一个区间。这样就有一个问题了，区间可以很大呀。比如说我抽样之后告诉你，总体的平均身高在0到3米之间，这个就有点废话了，所以在区间估计的时候，我们会说置信度，也就是说，多大的概率，这个均值落在这个区间里面。

那么这个怎么计算呢？

所以我们要多次抽样，获得很多的均值，这时候，我们获得的均值是一个随机变量了，那么他就有分布，就有均值（这是均值的均值），就会有方差等等。是不是我之前说的概率论的平方啊。

这个时候，我们要提出一个很重要的定律，中心极限定律。他是这么说的：

你不是抽样么，如果你抽样抽的很多，每次抽样的数量大于30，那么，我们认为你得到的均值的分布是一个正态分布，这个正态分布。既然是正态分布，就会有两个参数，期望和方差。期望就是总体的均值。那么方差是什么呢？方差就是总体方差除以n。

现在，会有两个问题，首先说第一个，万一抽样数量没有30个怎么办？这个时候就要分情况考虑了，如果总体是服从正态分布的，那么还是一样满足；如果总体不是正态分布，那么就不能用这个中心极限定律了。

还有一个问题是，你怎么知道总体的方差？这时候就需要t-分布了。如果你不知道总体的方差，那么我们用样本的方差来代替，但是这时候均值的分布就不是正态分布了，而是一个t-分布。总结一下就是下面这张表。之前提过，当t-分布的样本很多的时候，趋近与正态分布，所以，有时候，正态分布和t-分布都可以使用。

有了上面这样的基础，我们就知道如何获取一个给定置信度下的置信区间了。

譬如我们进行一次抽样，抽取100个，然后计算这100样本的均值和方差，然后根据这一方差除以100得到均值分布的方差。进行正态分布归一化后，利用之前的分位数，就可以获得一个区间了。

这就是区间假设。

如果把上面的步骤反过来，就变成了假设检验了。

在假设检验的第一步，就是写出假设，一个叫null假设，一个叫备择假设。null假设通常是用来拒绝的，那怎么叫拒绝呢，就是我么看他有没有落在置信区间里面。很easy的思想。

但是，不同的假设使用的分布式不同的，比如我们假设均值等于4，那么我们看一下，4在不在我们的区间里面，这个区间你是使用正态分布分位数算出来的；如果判断一个方差是不是某个值呢？这时候就用卡方分布；如果是测试两个分布的方差是否一样的，那么就是F-分布。

这就是所谓的假设检验。当然，还有很多的数学细节，但是思想就是这样。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2016年08月18日，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度