前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《数据可视化基础》两个或多个连续性变量相关可视化(一)

《数据可视化基础》两个或多个连续性变量相关可视化(一)

作者头像
医学数据库百科
发布2020-08-27 15:49:13
1.6K0
发布2020-08-27 15:49:13
举报

以下部分是基于《Fundamentals of Data Visualization》学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dataviz/

相关图

当我们有超过三到四个连续性变量的时候,如果我们还要使用散点图矩阵的话就显得比较笨拙了。在这种情况下,对多个变量之间关系的量化就很有用了。这种量化关系常见的方法是计算相关系数。相关系数(r)是一个在-1和1之间的数字,用来衡量两个变量共变的程度。r = 0表示没有相关性,1或-1表示完美相关。另外数字的正负代表是正相关还是负相关。为了对数据相关系数的有一个正确的认识,?的图是随机的一些数字计算得到的相关系数。

知道了相关系数,因此对相关系数的可视化则成为相关图。为了说明相关图,我们使用了200多块玻璃碎片成分的数据集。这个数据集检测了200多块玻璃有的各个物质成分的占比。最后总共检测到了7种氧化物。因此这其中氧化物产生了21种关系。利用相关图,我们就展示了这21种物质的关系。从图中可以看出:镁和几乎所有其他氧化物呈负相关,铝和钡呈强正相关

?相关图的一个弱点是即使是相关系数绝对值接近于零,在视觉上没有受到应有的抑制。例如:镁(Mg)和钾(K)没有任何相关性,但上图没有立即显示这一点。为了克服这个限制,我们可以同时把相关关系显示为彩色圆,并用相关系数的绝对值来缩放圆的大小。这样,低相关性被抑制,而高相关性被突出。因此就产生了?这个图。

11.3 降维

有时候我们在尝试找出多个数据集当中的主要关系的时候,就需要进行降维处理。这个时候最常见的降维处理的最PCA分析。关于PCA分析。目前原理讲的最好的还是STATQUEST上面的讲解。这里B站有搬运过来的翻译办法。有兴趣的可以去看一下。B站ID是:BV1T4411T73S

11.4 配对数据

在多定量数据的一种特殊情况就是配对数据,例如:对每个受试者进行两项可比较的测量;在不同时间点对同一受试者重复测量,或者测量两个密切相关的对象。对于配对的数据,我们的零假设是每对测量都相同或几乎相同,而各对之间却存在很大差异。两个双胞胎的身高大致相同,但与其他双胞胎的身高不同。因此,我们需要选择可视化来突出显示与该零假设的偏差。

配对数据的绝佳选择是在标记x = y的对角线上方的简单散点图。如果我们的零假设是正确的,则样本中的所有点将围绕该线对称地分散。相反,相对于对角线,数据点的向上或向下的系统移位将显示出与零假设的系统偏差。

例如,在1970年和2010年,166个国家/地区进行测量的人均二氧化碳(CO2)排放量数据可视化当中,我们可以突出的观察到配对数据的两个共同特征。首先,大多数点都相对靠近对角线。尽管各国之间的CO2排放量变化了近四个数量级,但在整个40年的时间范围内,每个国家的CO2排放量都相当稳定。第二,这些点相对于对角线系统地向上移动。因此说明在40年的时间中,大多数国家的二氧化碳排放量都有所增加。

当我们有大量的数据同时只是对配对数据的零假设感兴趣的时候,上图所示的散点图将很好地工作。但是如果我们的数据量不大,同时关注的是个体之间的变化的时候,那么倾斜图(slopegraph)可能是更好的选择了。在倾斜图当中,我们将单个测量绘制为单独的两列,并且同一个样本的前后两次测量通过直线相连。这样连线的斜率就能很好的显示变化的幅度和方向了。

例如,下图就是显示了2000年至2010年人均二氧化碳排放差异最大的十个国家的倾斜图。

斜线图相对于散点图具有一个重要优势:可用于一次比较两个以上的测量。例如下图就是显示了三个时间的变化结果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 相关图
  • 11.3 降维
  • 11.4 配对数据
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档