统计学如何用少量数据概括数据(相关概念)

用少量数据来概括大量数字是日常生活中常见的。那么可以用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic),那么样本的随机性决定了统计量的随机性。

数据的"位置"

比如说哪个地方穷,那个地方富,哪个国家人高,哪个国家人矮,这样不是说一个地方的所有人都比另一个地方的所有人富有或高,仅仅忽略了"平均起来"这样的字眼。实际上,这种说法是关于数据中某变量观测值的"中心位置",或者数据分布的中心(center或center tendency)的某种表述。这种与"位置"的有关统计量就称为位置统计量(location statistic)。

最常用的位置统计量就是小学学到的平均值,在统计学中叫做"均值",严格地说叫做样本平均值(sample mean)。

数据的"尺度"

是否"均"是由尺度统计量(scale statistic)来描述的。尺度统计量是描述数据散布,即描述集中于分散程度或变化的度量。一般来说,数据越分散,尺度统计量的值越大。

最简单的尺度统计量就是极差(range)。极差就是极大值和极小值之间的差。

另一个常用的尺度统计量为(样本)标准差(standard deviation)。它度量样本中各个数值到均值的距离的一种平均。简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。标准差实际上是方差的平方根。样本方差是由各观测值到均值距离的平方和除以减去1的样本量。比如:如果样本中的观测值为X1,X2,X3,X4....Xn,则样本方差为:

那么标准差就为样本方差的平方根:

显然如果标准差越大,数据中的观测值就越分散,小的标准值就意味着数据很集中。

数据的标准得分

比如,数据给出两个版的同一们课的成绩,假定两个班水平类似,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。例如,1班的均值和标准差分别为78.53和9.43,而2班的均值和标准差分别为70.19和7.00。那么得到90分的一班的yangsy是不是就比2班的xiaojingjing成绩更好呢?怎样比较菜合理呢?

虽然这种均值和标准差的值不能够直接比较,但是可以把它们标准化,然后再比较标准化的数据。一个标准化的方法是把某样本原始观测值(得分)和该样本均值之差除以该样本的标准差,得到的度量成为标准得分(standard score)即,某观测值Xi的标准得分Zi定义为:  z=(x- EX)/σ     

转换成相应的标准得分,就可以进行比较了。那么在上述例子中yangsy的得分(90-78.53)/9.43 = 1.22 ,而xiaojingjing的标准得分为(82 - 70.19)/7 = 1.69。所以xiaojingjing的分数应该优于yangsy。

当然,在应用一些统计方法时,有时的确需要对数据做标准化或其他变换,但这些都不是随意的,都有某些确定的理论基础和实践目的。

众数、中位数、平均值的联系与区别:

1、平均值是通过计算得到的,因此它会因每一个数据的变化而变化。 2、中位数是通过排序得到的,它不受最大、最小两个极端数值的影响.中位数在一定程度上综合了平均数和中位数的优点,具有比较好的代表性。部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用它来描述这组数据的集中趋势。另外,因中位数在一组数据的数值排序中处中间的位置, 3、众数也是数据的一种代表数,反映了一组数据的集中程度.日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向.

平均数、中位数和众数它们都有各自的的优缺点. 平均数:(1)需要全组所有数据来计算;             (2)易受数据中极端数值的影响. 中位数:(1)仅需把数据按顺序排列后即可确定;             (2)不易受数据中极端数值的影响.   众数:(1)通过计数得到;          (2)不易受数据中极端数值的影响

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 通过Crowd Layer,利用众包标注数据集进行深度学习

选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端...

49960
来自专栏新智元

MIT 研究“看见”神经网络形成概念过程,神经网络不全是黑箱

【新智元导读】MIT 新研究为解开深度神经网络黑箱迈出重要一步:今年的CVPR上,研究者提交一份新的研究,全自动分析了 ResNet,VGG-16,GoogLe...

35850
来自专栏深度学习计算机视觉

【CVPR 2018】牛津大学等联合提出通过让神经网络学会比较实现少样本学习

【论文导读】 深度学习的爆炸式发展得益于海量数据+强大计算力+算法三个部分的巨大进展,我们通常需要大量的数据去驱动模型的训练,使其获得很好的效果。但是在很多领...

47550
来自专栏机器之心

学界 | 与模型无关的元学习,UC Berkeley提出一种可推广到各类任务的元学习方法

选自BAIR Blog 作者:Chelsea Finn 机器之心经授权编译 参与:路雪、蒋思源 学习如何学习一直是机器学习领域内一项艰巨的挑战,而最近 UC B...

42690
来自专栏决胜机器学习

机器学习(一)——机器学习概述

机器学习(一)——机器学习概述 (原创内容,转载请注明来源,谢谢) 前言:近期开始学习机器学习,当前视频和书籍一起看,视频看的是吴恩达的机器学习系列课程,...

393100
来自专栏MyBlog

关于强化学习(1)

来源于Simple statistical gradient-following algorithms for connectionist reinforcem...

24430
来自专栏AI科技评论

干货 | 从零开始入门机器学习算法实践

人工智能热潮下,“大数据”、“机器学习”、“深度学习”热词屡见不鲜,但是想要真正掌握核心技术,势必要对机器学习算法有全面理解,这也是深入机器学习的必经之路。 为...

356100
来自专栏应兆康的专栏

22. 对比最优误差率

在我们的猫咪识别实例中,这个“想法”的错误率指的是——最优分类器的错误率接近0%,就像一个人可以很轻松的识别它。而且随时可以进行识别,我们希望机器也可以做到这点...

321100
来自专栏应兆康的专栏

22. 对比最优误差率

14210
来自专栏云时之间

什么是检验神经网络?

各位小伙伴们大家好,今天让我们聊聊在做好了自己的神经网络以后来如何评价自己的神经网络的并且如何从评价当中如何改进我们的神经网络。 其实评价神经网络的方法和评价其...

38480

扫码关注云+社区

领取腾讯云代金券