最近在梳理统计学基础,发现一些统计学的基本知识已经全部还给老师。由于在学习和工作中用到一部分,所以又重新拿了起来。统计学:主要分为描述统计学和推论统计学。
在描述数据的集中趋势几种概念:
1.平均值:所有数字的平均,描述集中趋势的某特定数字。 2.众数:出现次数(频率最多)最多的数字。描述的是离散值频率最多的数字。 3.中位数:从小到大排序,排序索引中间的数字。 以上都是描述数字集的中间趋势。 4.极差:最大值减去最小值。数字之间越紧密,极差越小;反之亦然。 5.中程数:最大值和最小值得平均值。
均值虽然很好的描述了数据的集中趋势,但是数据的离散程度它无法确切的反应。比如:0 0 5 5 和2 2 3 3虽然这两个数据集的平均是都是2.5,但是后者离均值的离散程度更疏密一些,或者说更紧凑。这种离散程度均值是无法衡量的,所以数据的离散程度通过方差和标准差来衡量。我们先看一下方差和标准差的公式:
随机变量可以理解为随机试验对结果的一种数字映射,本质上这种映射是一种函数。随机变量大致可以分为离散随机变量和连续随机变量。 离散随机随机变量:试验结果的映射是离散的值。例如:探索明天是否下雨的试验?只有两种试验结果下雨或者不下雨。 连续随机变量:试验结果的映射是连续的。例如:对于明天下雨雨量的统计?雨量是一种连续的结果。对于连续随机变量的概率是无精确衡量,可以允许一个误差范围。对于明天雨量估计误差范围为0.1,大致为2ml的雨量。|Y-2|<0.1,那么概率计算就是对误差范围内进行积分(黎曼和)。
随机变量的概率分布很多种,我们先看一下二项分布。
如果投掷一个不均匀的硬币,正面朝上的概率为p,反面朝上的概率为1-p。我们进行5此试验,那么它的概率分布是:
随机变量的期望值就是总体的均值,无法用全部求和然后除数目的方式求得,所以一般都是用期望来估计。
依据期望的定义,二项分布期望: