前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >《数据可视化基础》第七章:分布可视化:经验累积分布函数和q-q图

《数据可视化基础》第七章:分布可视化:经验累积分布函数和q-q图

作者头像
医学数据库百科
发布于 2020-07-17 03:45:11
发布于 2020-07-17 03:45:11
3.1K0
举报

以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/

上一章我们说到的直方图以及密度曲线在可视化数据分布的时候会,其图形的形成可以通过不同的分组来进行调整。这种只要涉及到人工调整的部分,在很大程度上就会对数据的分布产生误解。为了解决这种人工调整的问题,所以就有了经验累积分布函数(ecdfs)以及q-q图来说明数据分布的问题。不幸的是,它们比柱状图或密度图更不直观。

1. 经验累积分布函数

为了说明经验累积分布函数,我们这里使用一个学生成绩的数据集。假设班有50名学生,这些学生刚刚进行了一个测试。这个测试的结果是以0-100的分数来体现的。我们要如何更好的可视化结果呢?例如确定成绩的最大值和最小值。

对于这个数据的可视化,我们可以先获得一个按照学生成绩升序排序的表格。

X轴映射所有学生的得分,在Y轴映射排名。最后通过点图和梯度连接线来进行可视化数据。就出现了简单的经验累积分布函数(ecdf)或简单地是累积分布。在这个图里面,每一个点代表一个学生的排名以及其得分。

?的图形是按照递增的结果来进行展示的,如果我们要变成递减的话,那就变成?这个样子了。

对于递增和递减的两个分布曲线而言,递增的更加常用。但是在可视化高度偏态的数据的时候,递减的结果可能更好一些。

?两个图形的Y轴,我们使用的是学生的绝对排名。同样的,我们可以把Y轴转换为学生的累积占比。这样的话,我们就可以直接获得一些数据的关键信息了。例如在大约有25%的学生的成绩是低于75分的。这个数据的中位值(0.5的位置)是81分左右。

2. qq图

如果想要确定我们的数据是否符合某一个分布,这个是有一般可以使用qq图(Quantile–quantile plot)。与ecdfs一样,q-q图也基于对数据进行排名并可视化等级与实际值之间的关系。但是,在q-q图中,我们不直接绘制等级,而是使用它们来预测如果数据根据指定的参考分布进行分配,则给定数据点应位于何处。最常见的是,q-q图是使用正态分布作为参考来构建的。

举一个具体的例子,假设实际数据值的平均值为10,标准差为3。然后,假设数据符合正态分布。那么在正态分布当中,第50%位数据点的值是10(平均值)。第84%位数据点的值是13(比平均值高一个标准偏差),第2.3%位数据点的值是4(比平均值低两个标准偏差)。经过这样的计算。我们就获得了一个列新的数据。这一列的数据是如果数据符合目标分布(这里例子里面是正态分布)。那么具体的值是多少。

下面我们对这两列的数据进行绘制点图。如果所有的数据点都在对角线上,那么就说明我们测量的数据和理论分布的数据是相同的。那么就是符合目标分布。如果没有在对角线上那么久不符合目标分布。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
PP图和QQ图
分位数图示法(Quantile Quantile Plot,简称 Q-Q 图) 统计学里Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把他们的两个分位数放在一起比较。首先选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。 从定义中可以看出Q-Q图主要用于检验数据分布的相似性,如果要利用Q-Q图来对数据进行正态分布的检验,则可以令x轴为正态分布的分位数,y轴为样本分位数,如果这两者构成的点分布在一条直线上,就证明样本数据与正态分布存在线性相关性,即服从正态分布。
全栈程序员站长
2022/07/22
8840
PP图和QQ图
【统计学基础】从可视化到统计检验,比较两个或多个变量分布的方法总结
因为是随机的所以两组个体不会完全的相同(identical)。但是有时候,它们在总体表现时甚至不是“相似”的(similar)。例如,我们可能在一个群体中有更多的男性,或者年长的人,等等。(我们通常称这些特征为协变量或控制变量)。当这种情况发生时,就不能再确定结果的差异只是由于实验得来的。因此,随机化后,检查所有观察变量是否在组间平衡,是否没有系统差异是非常重要的。
统计学家
2023/01/11
2.2K0
10个实用的数据可视化的图表总结
可视化是一种方便的观察数据的方式,可以一目了然地了解数据块。我们经常使用柱状图、直方图、饼图、箱图、热图、散点图、线状图等。这些典型的图对于数据可视化是必不可少的。除了这些被广泛使用的图表外,还有许多很好的却很少被使用的可视化方法,这些图有助于完成我们的工作,下面我们看看有那些图可以进行。
deephub
2023/02/01
2.5K0
单变量图的类型与直方图绘图基础
单变量图(chart for one variable)是指使用数据组的一个变量进行相应图的绘制。想要可视化这个变量,就需要根据不同的数据变量类型绘制图。数据变量分为连续变量(continuous variable)和离散型变量(discrete variable)。
timerring
2023/10/13
6840
单变量图的类型与直方图绘图基础
数据分布检验利器:QQ plot
在机器学习和数据分析中,验证数据是否符合特定分布(如正态分布)是一个关键步骤,因为它直接影响统计方法和机器学习模型的选择。
皮大大
2025/01/22
1550
如何比较两个或多个分布:从可视化到统计检验的方法总结
来源:DeepHub IMBA本文6400字,建议阅读12分钟我们看到了很多不同的方法来比较两个或多个分布,无论是在可视化上还是在统计上。 比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时,因果推断的黄金标准便是随机对照试验,也就是所谓的A /B测试。在实践中,我们为研究选择一个样本,并将其随机分为对照组(control group)和实验组(treatment group)比较两组之间的结果。随机化确保了两组之间的唯一差异,这样我
数据派THU
2022/07/25
1.6K0
如何比较两个或多个分布:从可视化到统计检验的方法总结
独家 | 如何比较两个或多个分布形态(附链接)
作者:Matteo Courthoud 翻译:陈超校对:赵茹萱本文约7700字,建议阅读15分钟本文从可视化绘图视角和统计检验的方法两种角度介绍了比较两个或多个数据分布形态的方法。 从可视化到统计检验全方位分布形态比较指南: 图片来自作者 比较同一变量在不同组别之间的经验分布是数据科学当中的常见问题,尤其在因果推断中,我们经常在需要评估随机化质量时遇到上述问题。 我们想评估某一政策的效果(或者用户体验功能,广告宣传,药物,……),因果推断当中的金标准就是随机对照试验,也叫作A/B测试。在实际情况下,我们会
数据派THU
2022/08/29
2K0
独家 | 如何比较两个或多个分布形态(附链接)
统计学小抄:常用术语和基本概念小结
来源:DeepHub IMBA本文约2200字,建议阅读5分钟统计学是涉及数据的收集,组织,分析,解释和呈现的学科。 统计的类型 1) 描述性统计 描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。 2) 推论统计 从总体数据中提取一些数据样本,然后从这些数据样本中,推断一些东西(结论)。
数据派THU
2022/05/27
8220
统计学小抄:常用术语和基本概念小结
统计学小抄:常用术语和基本概念小结
描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统计可以在样本和总体数据上执行,但并不会使用总体数据。
deephub
2022/06/04
8410
统计学小抄:常用术语和基本概念小结
R 与 Python 双语解读统计分析基础
主要是理解相关数学概念,不偏倚语言。为了让掌握或学习不同语言的读者都能阅读,本号特提供两种语言版本。
统计学家
2021/03/24
2.1K0
R 与 Python 双语解读统计分析基础
单变量和多变量高斯分布:可视化理解
高斯分布是统计中最重要的概率分布,在机器学习中也很重要。因为很多自然现象,比如人口的身高,血压,鞋子的尺码,教育指标,考试成绩,还有很多更重要的自然因素都遵循高斯分布。
deephub
2020/10/19
1.3K0
单变量和多变量高斯分布:可视化理解
《数据可视化基础》第四章:可视化图形推荐
以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
医学数据库百科
2020/06/29
2.5K0
正态qq图怎么判断分布_怎么判断是不是QQ小号
QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。[1]
全栈程序员站长
2022/09/22
2.9K0
正态qq图怎么判断分布_怎么判断是不是QQ小号
R语言绘制正太分布图,并进行正太分布检验
约68.3%数值分布在距离平均值有1个标准差之内的范围,约95.4%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为“68-95-99.7法则”或“经验法则”。
学到老
2019/02/13
3K0
《数据可视化基础》第八章:一次性可视化很多分布
以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/
医学数据库百科
2020/07/20
6080
《数据可视化基础》第八章:一次性可视化很多分布
14个Seaborn数据可视化图
数据可视化在数据挖掘中起着非常重要的作用。各种数据科学家花费了他们的时间通过可视化来探索数据。为了加快这一进程,我们需要有合适的工具。
deephub
2020/10/19
2.2K0
14个Seaborn数据可视化图
Seaborn的15种可视化图表详解
可视化是以图形形式表示数据或信息的过程。在本文中,将介绍Seaborn的最常用15个可视化图表
deephub
2023/08/30
4490
Seaborn的15种可视化图表详解
「R」数据可视化3 : 热图
本文作者蒋刘一琦,自嘲是一个有艺术追求的生信狗,毕业于浙江大学生物信息学专业,目前在复旦大学就读研究生,研究方向为宏基因组。
王诗翔呀
2020/07/02
1.9K0
「R」数据可视化3 : 热图
RayData数据可视化系列课程第二讲 ——常见的数据可视化图表类型
类似于折线图,但是用宽度相同的条形的高度或长短来表示数据多少的图形,条形图可以横置或纵置。
RayData光启元
2019/09/30
2.9K1
RayData数据可视化系列课程第二讲 ——常见的数据可视化图表类型
机器学习统计概率分布全面总结(Python)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。
算法进阶
2023/12/26
5920
机器学习统计概率分布全面总结(Python)
推荐阅读
相关推荐
PP图和QQ图
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档