前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不同需求下可视化图形选择(翻译)

不同需求下可视化图形选择(翻译)

作者头像
三猫
发布2018-04-10 11:34:51
1.2K0
发布2018-04-10 11:34:51
举报
文章被收录于专栏:机器学习养成记

机器学习工程师George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部分内容翻译。重点说明了散点图、线图、直方图、条形图和箱型图的适用条件。

前言

数据可视化是数据科学家工作的重要组成部分。在项目开始阶段,人们需要做

探索性数据分析(EDA)来获得数据的深层信息。强大的可视化功能可以帮助人们更简洁清晰的了解数据,尤其是大量的、多维度的数据。在项目快结束时,用一种直观简单的方法,让不具备很强专业知识的人明白相应结果,也是非常重要的。不同的分析与展示目的,需要选择不同的可视化图形,下图展示了不同的需求,建议选择的可视化图形。

散点图

散点图可以直观展现原始点的分布和两个变量间的关系,并可以通过标记不同颜色,观察不同类别数据的关系,如下图:

通过对一些参数进行设置,如point size,我们可以观察三个变量间的关系,如下图:

线图

线图可以表示两个具有相关性的变量,一个变量随另一个变量变化的情况。从下图,我们可以清楚地看到,所有专业的百分比随着时间的推移有很大的变化。如果用散点图来表示这类问题,图像会非常混乱,很难理解数据的变化趋势。线图在这种情况下是完美的,因为它们快速地展现了这两个变量的协方差(百分比和时间)。

直方图

直方图可以有效的展现数据点的分布情况。下图为IQ的分布直方图,可以明显看出,分布集中在中央区域,并且我们可以清楚的了解IQ分布的中值,同样,还可以看出他是服从高斯分布的。直方图可以清楚的看到每个区间内频数的差异。使用直方图可以帮助我们看到“更大的图景”,因为如果我们使用散点图而不是直方图,那么在可视化中可能会有很多噪音,很难看清到底发生了什么。

条形图

当你试图把只有少数(通常<10个)类别的分类数据可视化时,条形图最有效。如果类别太多,条形图会很杂乱以致于理解困难。条形图很容易根据各个条形观察出不同类别数据的差异,不同类别的数据很容易区分并且能设定不同的颜色。条形图分为三种:普通条形图,分组条形图,和堆积条形图。分组条形图可用来比较多重分类变量,堆积条形图可用来反映某一变量上,不同类别的组成情况。三种条形图的样式可依次参见下图:

箱型图

之前提到的直方图可以展示数据的分布情况,但如果我们需要更详细的分布信息时,就要用到箱型图。箱型的上下两条边分别表示四分之一和四分之三分位点,箱内的线表示中值,虚线条上的条线从盒中伸出以显示数据的范围。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档