前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >小白的大数据笔记——3(统计学1)

小白的大数据笔记——3(统计学1)

原创
作者头像
DifficultWork
修改2021-02-24 17:51:56
5850
修改2021-02-24 17:51:56
举报
文章被收录于专栏:阶梯计划

1 前言

大数据分析少不了统计学的知识,最近在看可汗的统计学视频,重新温习书本知识。

2 P1~P19的知识点概述

2.1 统计分类

描述统计学:是阐述如何对客观现象的数量表现进行计量、搜集、整理、表示、一般分析与解释的一系列统计方法。其内容包括统计指标、统计调查、统计整理、统计图表、集中趋势测度、离散程度测度、统计指数、时间数列常规分析等理论和方法。

归纳统计学:又称推断统计学主要阐述如何根据部分数据(样本统计量)去推论总体的数量特征及规律性的一系列理论和方法,其主要内容包括概率与概率分布、参数估计、假设检验、抽样调查、方差分析、相关与回归分析、统计预测、统计决策等。归纳统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。有总体参数估计与假设检验两种。

2.2 均值

数学平均数:及最为熟知的平均数。

中位数:集合排序后位于中间位置的数。

众数:集合中出现次数最多的数。

极差:集合最大数 - 集合最小数。

中程数:集合中最大数和最小数的平均数。

2.3 象形统计图

2.3.1 柱状图

用于将事务归类,看每一类分别是怎样的情况

柱状图
柱状图

2.3.2 折线图

用来分析事物随时间变化的趋势

折线图
折线图

2.3.3 饼图

所有的事物在总体中占比加起来是100%,用来体现各部分的占比情况

饼图
饼图

2.3.4 茎叶图

体现事物的分级、梯队;帮助了解分布情况

茎叶图
茎叶图

2.3.5 盒须图

又称箱线图,主要体现中位数和分布情况

盒须图
盒须图

2.4 集中趋势衡量

2.4.1 均值

总体均值:\mu=\frac {\sum_{i=1}^Nx_i} N

样本均值:\overline x=\frac {\sum_{i=1}^nx_i} n

2.4.2 方差

总体方差:\sigma^2=\frac {\sum_{i=1}^N(x_i-\mu)^2} N,即\frac {\sum_{i=1}^Nx_i^2} N-\mu^2

样本方差:S^2=\frac {\sum_{i=1}^n(x_i-\mu)^2} {n-1},PS:这里除以n-1是为了减少样本方差被低估带来的影响

2.4.3 标准差

总体标准差:\sigma=\sqrt{\sigma^2}

样本标准差:S=\sqrt{S^2}

标准差能更好的体现集中趋势(如果集合数据单位是米,方差的单位就是平方米)

2.5 概率分布

2.5.1 随机变量

离散随机变量:抛硬币

连续随机变量:降雨量分布

2.5.2 离散概率分布

二项分布:即事件的结果只有两种,概率对等且互斥

即一枚硬币扔n次,扔出正面概率为p ,得到k次正面的概率:p(x=k)=\frac {n!} {k!{(n-k)}!}

参考文献:

md公式编辑参考

可汗统计学

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 前言
  • 2 P1~P19的知识点概述
    • 2.1 统计分类
      • 2.2 均值
        • 2.3 象形统计图
          • 2.3.1 柱状图
          • 2.3.2 折线图
          • 2.3.3 饼图
          • 2.3.4 茎叶图
          • 2.3.5 盒须图
        • 2.4 集中趋势衡量
          • 2.4.1 均值
          • 2.4.2 方差
          • 2.4.3 标准差
        • 2.5 概率分布
          • 2.5.1 随机变量
          • 2.5.2 离散概率分布
      • 参考文献:
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档