统计学基础一之数据描述和随机变量


概述

最近在梳理统计学基础,发现一些统计学的基本知识已经全部还给老师。由于在学习和工作中用到一部分,所以又重新拿了起来。统计学:主要分为描述统计学和推论统计学

数据集的集中趋势

在描述数据的集中趋势几种概念:

1.平均值:所有数字的平均,描述集中趋势的某特定数字。 2.众数:出现次数(频率最多)最多的数字。描述的是离散值频率最多的数字。 3.中位数:从小到大排序,排序索引中间的数字。 以上都是描述数字集的中间趋势。 4.极差:最大值减去最小值。数字之间越紧密,极差越小;反之亦然。 5.中程数:最大值和最小值得平均值。

方差和标准差

均值虽然很好的描述了数据的集中趋势,但是数据的离散程度它无法确切的反应。比如:0 0 5 5 和2 2 3 3虽然这两个数据集的平均是都是2.5,但是后者离均值的离散程度更疏密一些,或者说更紧凑。这种离散程度均值是无法衡量的,所以数据的离散程度通过方差和标准差来衡量。我们先看一下方差和标准差的公式:

随机变量

随机变量可以理解为随机试验对结果的一种数字映射,本质上这种映射是一种函数。随机变量大致可以分为离散随机变量和连续随机变量离散随机随机变量:试验结果的映射是离散的值。例如:探索明天是否下雨的试验?只有两种试验结果下雨或者不下雨。 连续随机变量:试验结果的映射是连续的。例如:对于明天下雨雨量的统计?雨量是一种连续的结果。对于连续随机变量的概率是无精确衡量,可以允许一个误差范围。对于明天雨量估计误差范围为0.1,大致为2ml的雨量。|Y-2|<0.1,那么概率计算就是对误差范围内进行积分(黎曼和)。

随机变量的分布

随机变量的概率分布很多种,我们先看一下二项分布。

二项分布

如果投掷一个不均匀的硬币,正面朝上的概率为p,反面朝上的概率为1-p。我们进行5此试验,那么它的概率分布是:

随机变量期望

随机变量的期望值就是总体的均值,无法用全部求和然后除数目的方式求得,所以一般都是用期望来估计。

二项分布的期望

依据期望的定义,二项分布期望:

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

Cell研究揭示生物神经元强大新特性,是时候设计更复杂的神经网络了!

1817
来自专栏云时之间

NLP入门之语言模型以及n元文法

各位小伙伴们大家好,在接下来的文章中我们将讲述一下什么是语言模型,以及语言模型上的应用,在完善之后我们将会简单的讲解一下语言模型的性能评估,这三点将是这一篇文章...

3459
来自专栏新智元

【重磅】Facebook 推出深度学习引擎 DeepText,挑战谷歌智能系统!

【新智元导读】Facebook 昨天推出了基于深度学习的文本理解引擎 DeepText,使用多个深度神经网络构架,结合监督学习与无监督学习,可以从零开始,在词和...

37611
来自专栏大数据挖掘DT机器学习

机器学习,数据挖掘在研究生阶段大概要学些什么?

作者:豆豆叶 中国科学技术大学数学系 机器学习,数据挖掘在研究生阶段大概要学些什么?能给一个梗概或者方向么? 这是一个很难回答的问题,每个人的基础不同起点也...

54910
来自专栏新智元

【大神Hinton】深度学习要另起炉灶,彻底抛弃反向传播

【新智元导读】 Hinton在接受 Axios 网站采访时表示,他现在对反向传播算法“深感怀疑”。反向传播算法是我们今天在AI领域所看到的进步的“主力”,包括对...

2855
来自专栏数据科学与人工智能

【机器学习】机器学习背后的统计思想

要理解机器学习首先要明白他的定义,很多人给出了定义“学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其...

2588
来自专栏应兆康的专栏

谷歌论文抢鲜看:教机器画画

在谷歌最近的论文“A Neural Representation of Sketch Drawings”中,提出了一种能够产生普通物体草图的生成式复现神经网络,...

4843
来自专栏大数据文摘

神经网络的叛离:32年前从心理学与生理学分离的瞬间

这一算法由被誉为深度学习之父的Geoffrey Hinton提出。1986年,他发表了名为Learning representations by back-pr...

1032
来自专栏ATYUN订阅号

加利福尼亚大学开发模型,可减少AI数据集的性别偏见

词嵌入是一种将单词和短语映射到实数向量上的语言建模技术,是自然语言处理的基础部分。这就是机器学习模型如何“学习”语境相似性和词语接近的重要性,以及它们如何最终从...

1502
来自专栏窗户

什么是算法

  有人说程序=算法+数据结构,虽说这样的认为有失偏颇,一个程序决定的东西实在太多,但某些方面也说明了算法是很重要的(数据结构承上启下,最终也是要为算法服务)。...

21210

扫码关注云+社区

领取腾讯云代金券