大数据分析少不了统计学的知识,最近在看可汗的统计学视频,重新温习书本知识。
描述统计学:是阐述如何对客观现象的数量表现进行计量、搜集、整理、表示、一般分析与解释的一系列统计方法。其内容包括统计指标、统计调查、统计整理、统计图表、集中趋势测度、离散程度测度、统计指数、时间数列常规分析等理论和方法。
归纳统计学:又称推断统计学主要阐述如何根据部分数据(样本统计量)去推论总体的数量特征及规律性的一系列理论和方法,其主要内容包括概率与概率分布、参数估计、假设检验、抽样调查、方差分析、相关与回归分析、统计预测、统计决策等。归纳统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。有总体参数估计与假设检验两种。
数学平均数:及最为熟知的平均数。
中位数:集合排序后位于中间位置的数。
众数:集合中出现次数最多的数。
极差:集合最大数 - 集合最小数。
中程数:集合中最大数和最小数的平均数。
用于将事务归类,看每一类分别是怎样的情况
用来分析事物随时间变化的趋势
所有的事物在总体中占比加起来是100%,用来体现各部分的占比情况
体现事物的分级、梯队;帮助了解分布情况
又称箱线图,主要体现中位数和分布情况
总体均值:\mu=\frac {\sum_{i=1}^Nx_i} N
样本均值:\overline x=\frac {\sum_{i=1}^nx_i} n
总体方差:\sigma^2=\frac {\sum_{i=1}^N(x_i-\mu)^2} N,即\frac {\sum_{i=1}^Nx_i^2} N-\mu^2
样本方差:S^2=\frac {\sum_{i=1}^n(x_i-\mu)^2} {n-1},PS:这里除以n-1是为了减少样本方差被低估带来的影响
总体标准差:\sigma=\sqrt{\sigma^2}
样本标准差:S=\sqrt{S^2}
标准差能更好的体现集中趋势(如果集合数据单位是米,方差的单位就是平方米)
离散随机变量:抛硬币
连续随机变量:降雨量分布
二项分布:即事件的结果只有两种,概率对等且互斥
即一枚硬币扔n次,扔出正面概率为p ,得到k次正面的概率:p(x=k)=\frac {n!} {k!{(n-k)}!}
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。