不同需求下可视化图形选择(翻译)

机器学习工程师George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部分内容翻译。重点说明了散点图、线图、直方图、条形图和箱型图的适用条件。

前言

数据可视化是数据科学家工作的重要组成部分。在项目开始阶段,人们需要做

探索性数据分析(EDA)来获得数据的深层信息。强大的可视化功能可以帮助人们更简洁清晰的了解数据,尤其是大量的、多维度的数据。在项目快结束时,用一种直观简单的方法,让不具备很强专业知识的人明白相应结果,也是非常重要的。不同的分析与展示目的,需要选择不同的可视化图形,下图展示了不同的需求,建议选择的可视化图形。

散点图

散点图可以直观展现原始点的分布和两个变量间的关系,并可以通过标记不同颜色,观察不同类别数据的关系,如下图:

通过对一些参数进行设置,如point size,我们可以观察三个变量间的关系,如下图:

线图

线图可以表示两个具有相关性的变量,一个变量随另一个变量变化的情况。从下图,我们可以清楚地看到,所有专业的百分比随着时间的推移有很大的变化。如果用散点图来表示这类问题,图像会非常混乱,很难理解数据的变化趋势。线图在这种情况下是完美的,因为它们快速地展现了这两个变量的协方差(百分比和时间)。

直方图

直方图可以有效的展现数据点的分布情况。下图为IQ的分布直方图,可以明显看出,分布集中在中央区域,并且我们可以清楚的了解IQ分布的中值,同样,还可以看出他是服从高斯分布的。直方图可以清楚的看到每个区间内频数的差异。使用直方图可以帮助我们看到“更大的图景”,因为如果我们使用散点图而不是直方图,那么在可视化中可能会有很多噪音,很难看清到底发生了什么。

条形图

当你试图把只有少数(通常<10个)类别的分类数据可视化时,条形图最有效。如果类别太多,条形图会很杂乱以致于理解困难。条形图很容易根据各个条形观察出不同类别数据的差异,不同类别的数据很容易区分并且能设定不同的颜色。条形图分为三种:普通条形图,分组条形图,和堆积条形图。分组条形图可用来比较多重分类变量,堆积条形图可用来反映某一变量上,不同类别的组成情况。三种条形图的样式可依次参见下图:

箱型图

之前提到的直方图可以展示数据的分布情况,但如果我们需要更详细的分布信息时,就要用到箱型图。箱型的上下两条边分别表示四分之一和四分之三分位点,箱内的线表示中值,虚线条上的条线从盒中伸出以显示数据的范围。

原文发布于微信公众号 - 机器学习养成记(chenchenwings)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

支持向量机(SVM)之Mercer定理与损失函数----5

任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人...

9917
来自专栏PPV课数据科学社区

【干货】机器学习常见算法分类汇总

作者|王萌 转自|IT经理网 (www.ctocio.com) 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法...

2916
来自专栏专知

36页最新《深度学习在推荐系统上的应用》综述论文,209篇参考论文

【导读】随着在线信息量的不断增长,推荐系统已成为克服此类信息过载的有效策略。鉴于其在许多网络应用中的广泛采用,以及其改善与过度选择相关的许多问题的潜在影响,推荐...

2602
来自专栏目标检测和深度学习

要合作,不要对抗!无需预训练超越经典算法,上交大提出合作训练式生成模型CoT

?---- 作者:卢思迪 上海交通大学 【新智元导读】上海交通大学APEX实验室研究团队提出合作训练(Cooperative Training),通过交替训练...

4388
来自专栏新智元

要合作,不要对抗!无需预训练超越经典算法,上交大提出合作训练式生成模型CoT

---- 新智元专栏 作者:卢思迪 上海交通大学 【新智元导读】上海交通大学APEX实验室研究团队提出合作训练(Cooperative Trainin...

3477
来自专栏AI科技大本营的专栏

一文了解迁移学习经典算法

迁移学习(Transfer Learning)目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。

1472
来自专栏企鹅号快讯

你所不能不知道的CNN

说起CNN,最初人们想到的都是某电视台,但等过几年,人们想起的多半是深度学习了。 应该说, CNN是这两年深度学习风暴的罪魁祸首, 自2012年, 正是它让打入...

4878
来自专栏AI科技评论

开发丨如何训练深度神经网络?老司机的 15 点建议

本文为印度深度学习专家、创业者 Rishabh Shukla 在 GitHub 上发表的长博文,总结了他过去的开发经验,旨在给新入门的开发者提供指导。AI科技评...

4048
来自专栏AI科技评论

干货 | 张宇伦:基于残差密集网络的图像超分辨率(CVPR 2018 亮点论文)| 分享总结

AI 科技评论按:图像超分辨率技术作为底层计算机视觉任务,有着广泛的应用场景,比如:手机图像增强,视频监控,医疗影像,卫星图像,低分辨率人脸识别。因此,图像超分...

1862
来自专栏机器之心

入门 | 一文概览视频目标分割

3808

扫码关注云+社区

领取腾讯云代金券