专栏首页日常撸知识一些统计学基础知识,Statistics basics

一些统计学基础知识,Statistics basics

一,一些基础点。

平均数:数据的中心。

中位数:数据从小到大排列,中间一个或中间两个数的平均值。

众数:次数出现最多的数。

全距:最大值与最小值的差。仅描述数据的宽度,并没有描述数据上界和下届间数据的分布。

四分位数:首先数据按从小到大排序,然后将数据分成四个相同数量的数据块,每块包含原数据的四分之一数据。

下四分位数Q1表示;上四分位Q3表示;Q2其实就是中位数;

四分位距:IQR=Q3-Q1;

下四分位Q1是P25,Q2是P50,Q3是P75。

箱线图:显示数据的全距(上边缘,下边缘),四分位距以及中位数。如图(此图来自internet),

下边缘=Q1-1.5*IQR,上边缘=Q1+1.5*IQR

方差:数值与均值的距离的平方数的平均值

标准差:量度与均值的距离

标准差的单位与相应数据的单位相同。

标准分:标准分的作用是将几个数据集转化为一个理论上的新分布,均值为0,标准差为1。正的z分高于均值,负的z分低于均值。z=0等于均值。

二,几种分布。

几何分布:进行一系列相互独立的实验;每次实验的成功的概率相同;目的是求取得第一次实验成功需要进行多少次实验。

二项分布:进行一系列独立的实验,每一次都存在成功和失败的可能,且每次成功的概率相同;实验有限次数;目的是获得成功的次数。

泊松分布:单独事件在给定区间内随机独立的发生;一直该区间内的事件平均发生次数且为有限值。

正态分布(高斯分布):曲线对称,中央部位的概率密度最大,均值和中位数和众数均位于中央。

求正太分布概率三步走:(1)确定分布范围;(2)使用标准分标准化;(3)查找概率;

几种分布表示及其期望和方差:

分布近似情况,近似求概率将带来方便:

二项分布和泊松分布近似的情况:当试验次数很大切每次成功概率很小时,可以用泊松分布近似代替二项分布。

正太分布代替二项分布的情况:当np和nq都大于5时,q=1-p;可以用正太分布代替二项分布。因为二项分布为离散分布,正太分布为连续分布,所以替代时可能会使结果稍微偏大,因此需要进行连续性修正。

三,总体和样本的估计

样本均值称作总体均值的点估计量,样本均值给出了总体均值很好的估计。

不再使用样品方差估计总体方差,样本方差小于总体方差,所以用下面这个公式:

总体的成功比例用样本的成功比例估计。比例期望和方差如下:

当n>30时,可用正太分布近似,切需要进行连续性修正。

x符合正太分布,则x平均值一定符合正太分布。

若x不符合正太分布,那么x的平均值符合正太分布吗?

中心极限值定理:非正太分布x中取出一个样本,且样本很大,则x的平均值分布近似为正太分布。公式如下:

四,置信区间的构建,假设检验,卡方分布,方差分析。(未完待续)

本文分享自微信公众号 - 小末快跑(Faster_Future),作者:小末快跑

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何判断一个数据分布是否是正太分布?

    在数据分析过程中,得到一组数据,在分析之前,通常需要判断数据是否符合正态分布与否,再决定下一步分析方法。那么,如何判断数据是否属于正太分布呢?

    小末快跑
  • python matplotlib study

    Matplotlib是一个图形库,是以Numpy库为基础的一个库。我们主要看到的是Artist层。其结构如下图。

    小末快跑
  • 统计学之假设检验

    P-值规则:先把显著性水平α值转化为一定分布下的临界值,然后在计算检验统计值,最后把检验统计值与临界值相互比较来判断是否拒绝原假设。在双侧检验时,α平分在两侧,...

    小末快跑
  • 专知主题链路知识推荐#1——马尔科夫链蒙特卡洛采样(附代码)

    【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

    WZEARW
  • R-正太分布,检验

    什么是正太分布检验? 判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。 方法一 概率密度曲线比较法 看样本与正太分布概率密度曲线的拟合程度,R代...

    学到老
  • 大快DKH大数据网络爬虫安装教程(详细图文步骤)

    爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

    IT小白龙
  • C语言中的atan和atan2

    用户1653704
  • C语言中的atan和atan2

    在C语言的math.h或C++中的cmath中有两个求反正切的函数atan(double x)与atan2(double y,double x)  他们返回的值...

    用户1653704
  • 腾讯科技年终策划:八位科技人的2014

    2014年,京东、阿里巴巴、陌陌等公司的上市再次搅动着大家的神经。纳斯达克敲钟,一夜暴富的事实展现着互联网聚敛财富和扩大规模的惊人速度。无数创业者和风险投资人士...

    腾讯研究院
  • Python对mysql数据库操作

    使用MySQLdb模块。下载地址:http://sourceforge.net/projects/mysql-python/

    汐楓

扫码关注云+社区

领取腾讯云代金券