首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一些统计学基础知识,Statistics basics

一些统计学基础知识,Statistics basics

作者头像
小末快跑
发布2019-07-03 17:21:40
9860
发布2019-07-03 17:21:40
举报

一,一些基础点。

平均数:数据的中心。

中位数:数据从小到大排列,中间一个或中间两个数的平均值。

众数:次数出现最多的数。

全距:最大值与最小值的差。仅描述数据的宽度,并没有描述数据上界和下届间数据的分布。

四分位数:首先数据按从小到大排序,然后将数据分成四个相同数量的数据块,每块包含原数据的四分之一数据。

下四分位数Q1表示;上四分位Q3表示;Q2其实就是中位数;

四分位距:IQR=Q3-Q1;

下四分位Q1是P25,Q2是P50,Q3是P75。

箱线图:显示数据的全距(上边缘,下边缘),四分位距以及中位数。如图(此图来自internet),

下边缘=Q1-1.5*IQR,上边缘=Q1+1.5*IQR

方差:数值与均值的距离的平方数的平均值

标准差:量度与均值的距离

标准差的单位与相应数据的单位相同。

标准分:标准分的作用是将几个数据集转化为一个理论上的新分布,均值为0,标准差为1。正的z分高于均值,负的z分低于均值。z=0等于均值。

二,几种分布。

几何分布:进行一系列相互独立的实验;每次实验的成功的概率相同;目的是求取得第一次实验成功需要进行多少次实验。

二项分布:进行一系列独立的实验,每一次都存在成功和失败的可能,且每次成功的概率相同;实验有限次数;目的是获得成功的次数。

泊松分布:单独事件在给定区间内随机独立的发生;一直该区间内的事件平均发生次数且为有限值。

正态分布(高斯分布):曲线对称,中央部位的概率密度最大,均值和中位数和众数均位于中央。

求正太分布概率三步走:(1)确定分布范围;(2)使用标准分标准化;(3)查找概率;

几种分布表示及其期望和方差:

分布近似情况,近似求概率将带来方便:

二项分布和泊松分布近似的情况:当试验次数很大切每次成功概率很小时,可以用泊松分布近似代替二项分布。

正太分布代替二项分布的情况:当np和nq都大于5时,q=1-p;可以用正太分布代替二项分布。因为二项分布为离散分布,正太分布为连续分布,所以替代时可能会使结果稍微偏大,因此需要进行连续性修正。

三,总体和样本的估计

样本均值称作总体均值的点估计量,样本均值给出了总体均值很好的估计。

不再使用样品方差估计总体方差,样本方差小于总体方差,所以用下面这个公式:

总体的成功比例用样本的成功比例估计。比例期望和方差如下:

当n>30时,可用正太分布近似,切需要进行连续性修正。

x符合正太分布,则x平均值一定符合正太分布。

若x不符合正太分布,那么x的平均值符合正太分布吗?

中心极限值定理:非正太分布x中取出一个样本,且样本很大,则x的平均值分布近似为正太分布。公式如下:

四,置信区间的构建,假设检验,卡方分布,方差分析。(未完待续)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小末快跑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档