前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >那些培训师都不曾告诉你的关于Excel图表的秘密~

那些培训师都不曾告诉你的关于Excel图表的秘密~

作者头像
数据小磨坊
发布2018-04-11 17:02:57
1.8K0
发布2018-04-11 17:02:57
举报
文章被收录于专栏:数据小魔方数据小魔方

之前在Excel图表合集那篇文章了曾提了几点Excel与其他可视化工具以及编程类软件在可视化理念方面的粗浅理解,有小伙伴儿在后台回复说还是没有听明白。

可能是我当时没有说清楚,今天这篇,我专注于Excel的作图规则,深入的研究下Excel由数据源到可视化图表之间的关系是如何对应的,倘若你已经在工作中横跨好几种可视化工具(包括Excel),那么本文可以更好地帮助你理解Excel与其他工具的区别。

倘若你还一直局限在Excel的圈子内,那也没关系,仔细体会这一篇内容,后续记得跟踪我针对其他可视化工具作图理念的汇总,相互比对就能体会其中深意。

Excel对宽数据和长数据的适用范围:

1、Excel的图表模块更适合宽数据(即汇总过的二维表);

在长表中,我将选中得三列全部作为簇状柱形图的数据源,默认的柱形图如下所示,虽然在横轴上也出现了两个维度信息(公司维度、日期维度),但是两个维度布局的很不友好。

2、针对宽数据而言,Excel并不严格限定行列(允许行列自由转置),过渡的自由有时候会造成制图效率的低下,所以如果能领会我接下来教给你的心得,那么你的制图效率将会提高很多。

在详细解释以上内容之前,你需要对数据结构中的基本概念有所了解,即什么叫维度、什么叫度量。

如果不那么严格的进行定义,你可以粗略的将数值型指标当做度量(并不绝对,要视实际意义而定),类别型指标视作维度。(这其实对应于统计学中的变量类别划分标准:定类变量/定序变量——维度,定距变量/定比变量——度量)

了解变量类型之后,我们可以知道,我们的源数据包含两个维度(公司、日期),一个度量(对应日期某公司的指标)。

源数据的维度之间可以自由的转置(与线性代数中的转至概念没什么差别,就是行列位置的对应调整,并不改变具体度量值,改变的只是呈现数据的方式)。

转置在Excel中有两种方式可以完成,一种是复制数据源,选择性黏贴——行列转换。

另一种则是在已经 完成的默认图表选择菜单中点击行列数据变换。

我使用同一数据源的原始维度和转之后的维度分别插入了默认的簇状柱形图。结果如下。

仔细分析以上数据源与默认图表的行列对应关系你会发现,三个指标的位置在原始表格与图形化后的图表上分布及其有规律。

列标题总是对应图表中的横轴,行标题总是对应图表中的图例。而度量总是呈现在图表的纵轴(数量轴或者说Y轴)上。

这个规律是Excel图表的默认规则,当然你不必要严格执行此规则,那么不执行的后果就是,如果维度呈现的顺序不符合你的意图,你要么需要在源数据中进行数据转置,要么需要在图表的选择菜单里进行行列变化,进而转换成你中意的图表呈现形式。

所以结论就是,你的数据源组织,需符合以下要求:

  • 想要对比的维度按列分布;(最终将会呈现在X轴上)
  • 需要分类的维度按行分布:(最终通过图例中的颜色分类进行区分)。
  • 行列虽然可以自由变换(通过数据源选择性黏贴转至或者在图表的选择菜单中进行行列变换),但一定要想清楚你的图表侧重对比那个维度,按照那个维度分类。

3、Excel的图表模块并没有数据聚合功能。

(原因大概是这个模块并不能识别因子变量)。

我所说的聚合是指,通过将一组分类指标(一个维度与一个度量)按照类别分开并计算各类的均值、众数、中位数、方差、标准差、求和计算等。

所以,无论你的维度里面包含多少类别,Excel图表都只会把单个观测值视作单独的指标,这是它与主流可视化工具以及编程类工具在可视化功能上的最大差别和缺憾,也是验证上述观点中:Excel图表模块专为二维表(宽数据)所设计的证据之一。

以上图示中,列是一个呈现公司维度的指标,这种维度在数据库中非常常见,可能是日期的细分维度、也可鞥是地区的细分维度。

但是Excel的默认图表将维度的单个观测全部视作唯一值,而不会对其进行任何分类聚合操作。

所以我们要想直接呈现汇总后的图表,需动用数据透析表进行维度透析,或者,将其整理成二维表制作多分类的可视化图表。

(以上操作同样适合条形图,只是条形图实质上相当于将柱形图向右旋转了90,所以条形图的行列概念与柱形图刚好颠倒过来)

4、Excel是如何识别维度指标的。

这里先放四张图供大家思考:

我想大家一定看出了些猫腻,但是好像还不说不出其中的端倪。

我是这么理解的,Excel的图表模块是通过行列标题来自动探测并识别维度指标的。以上四幅图最符合我们需求的的应该是第一张图,该图完整的呈现了两个维度和度量的信息。

图二中,我们在首行首列的位置放入了一个YEAR的名称,我们理所当然的以为这个只是首列的标题而已,可是Excel并没有这么智能,它将其视作与后几列同样性质的公司维度中的一个名称。因为首列也成了一个特殊的公司(日期则成了该特殊公司的另一个维度不同水平的指标)。

所以整个图表的行维度(公司数)变成了6个,而因为没有定义列维度(原始数据中失去了行标题,其实是有的,但是因为添加了一个首行首列交叉位置的YEAR标签,结果Excel将首行作为列维度的一个分类,因而也就不存在名义上的日期维度分类)。

尽管Excel不知道丢失的维度的具体水平及名称,可是改变不了原始数据是一个二维表这样一个事实,因而还是给丢失的维度信息在图表中补全了,但是是通过默认的系列1、系列2、系列3……等方式来弥补的。

接下来看图示3:

该图的原始数据仍然是一个二维表,但是只有明确的行列维度信息(你以为你写了一组2012、2013^2016这么一组有规律的数据,Excel就能明白这是一个日期维度呀,那你真的是想多了,它跟其他的数值型指标没有任何的区别),与图2的过程类似,维度信息的丢失改变不了原始数据是二维表这样一个事实。因而Excel仍然会帮其补全行列维度(图表横轴补全了原始表列维度信息【即我们想当然以为当做行维度信息的日期和后5列指标】,图表纵轴补原始表中行维度信息,此时行为度信息已经不是我们想当然以为的那个日期指标,而是一组未知度量)。

图示4:

图示4中只明确了表格中列维度信息,而没有声明行维度信息,因为不存在错误识别,该状况下,Excel可以很完美的识别列维度(呈现在图表的横轴上)。而丢失的行维度信息则自动补全(呈现在图例的分类颜色指标上)。

综上所示,Excel识别维度信息是通过原始二维表表结构中的首行首列标签来识别的(切记不要在首行首列中写入任何信息,一定要留白、一定要留白、一定要留白)。

倘若不慎将首行首列(即行列维度标签的交叉单元格)标签交叉位置写入任何内容,那么结果是致命性的,你的列为度(也就是图表的横轴上)会被加入一个虚假的维度类别指标。

5、关于作图效率:

以下是分别在Excel中制作多分类序列图表和其他软件工具(包含桌面端可视化工具以及编程工具等)所分别适用的数据源。

从效率上来说,自然是其他 工具所使用的数据源(即一维表或者说长数据)效率更高一些,Excel将每一个分类都视作一个列字段(典型二维表风格),其他的工具是通过将分类序列进行堆栈操作,聚合成一个包含类别变量(因子变量)和一个度量(数值型变量)从而大大简化了数据源,这在分类特别特别多的时候具有很大的优势。(想象一下如果有一千个分类,你难倒要在Excel里面列出1001个列字段吗,使用二维表仍然是三个字段,公司名称、日期,指标)。

现在你应该明白Excel为啥无法胜任大数据可视化了吧,出了本身性能的限制之外,更重要的是她的作图理念,本就不是为大数据而生的。

当然 也不能说Excel这种二维表作图一无是处,二维表直观易懂,其本身就兼具图形化的信息呈现功能,否则为什么很多专业的报告中除了图表之外,包含很多表格呢,而一维表这种篇原始(但是易于存储)结构的数据应该不会常用于报告中。

所以说对于小数据或者二维表而言,Excel的图表工具还是非常适于此种可视化场景,而要是将二维表用于其他可视化工具来进行可视化(可视化桌面端工具或者编程工具),则你需要额外进行数据的长宽转换。

(关于数据长宽转换以及多维数据集在不同可视化工具中的最优可视化解决方案,我会专门列一篇进行分析讲解)

以上关于行列维度的分析并不适用于呈现连续性数据的图表类型(如直方图、散点图、气泡图等),原因很简单,如果图表的二维坐标系中都呈现连续性指标,那么也就无所谓维度了,维度是针对分类资料所定义的一种特殊指标,连续性指标也就只剩下度量指标啦。

事实上Excel出了为二维表作图而生之外,还是转门为分类数据可视化而生的(可能我说的比较绝对了,大家不要喷我),为什么的,原因有两个:

1、Excel的现存图表库中绝大多数图表是适应分类数据作图,(只要一个轴支持分类数据即可算作离散数据可视化类型,而真正用于连续性数据可视化呈现的图表类型及其少,比如散点图【你会发现Excel的散点图也是支持类别变量的】、气泡图、直方图【直方图以往都是在数据分析库模块中,需要单独调用才能使用,近期才加入普通图表的菜单入口】)。

2、普通的业务分析场景下,更多的是不同维度间的交叉对比和汇总分析,而连续数据的可视化多用于预测与建模,这在学术研究中(时间序列数据的建模)以及企业的战略数据挖掘部门(市场拓展与销售预测等)使用场景比较多,而且数据量一般都大。(这也决定了Excel使用的局限性,即更适合客观呈现、适合分类资料的汇总可视化,不适合用于大数据量的挖掘呈现)。

3、当然我还有一个证据在证明我以上的看法,那就是最近两年微软公司尽心尽力培育的PowerBI商务智能系统,在数据源上完美支持主流数据库,可视化形式上使用一维表进行操作,在数据量上也大大突破了Excel所能承受的量级。这或许就是当前大数据如火如荼的形势下,微软的office系统显然已经无法支撑大数据下的分析与可视化需求,必须布局其自己的大数据分析与可视化系统。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据小魔方 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据可视交互系统
RayData 是基于独有的渲染技术,结合云计算、AI、IoT,将大规模多样化的数据融合呈现,实现云数据实时可视化、场景化以及交互的管理方式,从而节省管理成本,提升数据辅助决策的效率。多年来丰富的大型项目交付经验辅以行业卓越的生态能力,使得 RayData 拥有远超行业水准的产品服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档