前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据人必会的Excel|连Excel透视表都不会,别说你会数据分析!

数据人必会的Excel|连Excel透视表都不会,别说你会数据分析!

作者头像
数据万花筒
发布2021-02-03 15:11:14
1.4K0
发布2021-02-03 15:11:14
举报
文章被收录于专栏:数据万花筒数据万花筒

已经使用各类函数统计出了数据结果,却被要求加入新的临时需求。这是数据分析师的工作日常,你是否还在为此苦恼?

面对这样场景数据分析师如何破局?Excel中的数据透视表可谓是数据分析师们的得力助手,学会Excel的数据透视表能够让数据分析师们高效地进行数据统计汇总、字段计算、更新数据源等操作。Excel数据透视表解决了数据统计汇总时效率低且容易出错的问题,能够帮助分析师们高效地完成各类数据统计分析工作。切片器还能实现动态筛选,是不是很酷啊!

今天,我们会以Kaggle平台上经典的Titanic数据集是为例,讲解数据透视表的用法并对该数据集做一个简单的数据统计分析。

01

数据集字段介绍

Titanic数据集包括10个特征,也就是我们所说的字段,分别是乘客是否存活、仓位、性别、年龄、同行的兄弟姐妹数量、同行的长辈数量、票号、票额、仓号以及出发口岸。具体的示例以及含义详见下表。

02

创建数据透视表

创建透视表的方法很简单,我们首先选中需要创建透视表的数据,点击【插入】选项卡下面的【数据透视表】,然后选择放置数据透视表的位置上,最后点击确定,即可插入数据透视表。

当然我们也需要了解下数据透视表的四大基本要素。

字段列表:也就是我们在插入透视表之前所选中的数据内容所包含的字段,可以通过勾选把不同的字段放到筛选框、行、列、值当中。

筛选:需要进行分组的字段,也相当于所谓的filter

:列值。

:行值。

:看具体要统计什么内容。可以根据需要选择统计的方式,例如,求和、计数、求均值等等。

例如,我们现在想要分析仓位与生存的关系,我们可以把字段Survived放在列,把Parch放在行,然后统计PassengerID的个数。

这字段列表左下角有一个延迟布局更新的功能,当数据量较大时,就可以选定这个延迟更新,该功能相当于需要等我们的字段设置完成之后才进行数据更新,可以最大程度保证我们操作的流畅。

值得统计方式默认是【求和】,我们需要进行调整将其调整为【计数】,选中需要调整的数据,单击鼠标右键,点击【值汇总依据】,然后选择【计数】,其调整方法如下图所示。

如果我们单纯看一个绝对数值,得到的信息会比较少,如果我们可以得到不同仓位的生存率和死亡率,可以更加清晰地分析出每个仓位的生存情况。

说到这里你可能都想直接去算百分比了,别着急,强大的透视表当然不会少了这个功能的。我们只需要选择需要调整格式的数据区域,点击鼠标左键,选择【显示值方式】,点击【行汇总的百分比】即可变为百分比格式。

透视表除了可以选择【行汇总的百分比】之外,还有多种形式可以选择,例如,【差异】、【差异百分比】等等,可以根据自己的需要选择相应的计算方式。

03

创建数据透视图以及切片器

原始数据总是会显得不那么直观,要是能有图就更好了。强大的Excel几乎可以满足你的愿望,我们可以选择创建数据透视图。其创建方式也是及其简单的,首先,选中已经有的透视表,点击【插入】选项卡,找到【图表】菜单下的【数据透视图】即可完成创建。

同样的,数据透视图也有四要素,和透视表类似,这里就不在叙述。

有了图,要是能有个筛选器当然再好不过了。只要点击【插入】选项卡下【筛选器】菜单里的【切片器】并选择需要作为filter的字段,我们这里选择的是Pclass仓位作为filter。

04

数据透视表的其他功能介绍

数据透视表除了上述介绍的功能之外,还几个比较常用且非常实用的功能。

第一个就是计算字段,计算字段极大扩展了数据透视表的计算功能。比如我们现在已知每位乘客的同行长辈数量和同辈数量,需要计算每乘客的同行人数,就可以通过【插入计算字段】计算得出,非常方便使用。具体的操作方法详见下图。

除此之外呢,更改数据源也是一个非常常用的功能,该功能可以随时随地进行数据源的更改。其操作方式也比较简单,在【分析】菜单中找到【更改数据源】即可操作。

05

透视表分析泰坦尼克号数据特征

了解了透视表和透视图的用法,我们一起来分析下坦塔尼克号数据集的特征吧!通过数据可视化分析,我们发现头等舱的乘客存活率较高,从C口岸登船的乘客存活率较高。接着,我们分析了登船口岸和仓位的关系,发现从C口岸登船的乘客乘坐头等舱的比率较高,这又印证了头等舱的乘客存活率较高的结论。后面我们分析性别和生存率的关系,发现女性存活下来的可能性较大。

最后,我们分析了同行的同辈数量和长辈数量与生存率之间的关系,发现当乘客同行的父母及子女数量适中时,生存率较高。

当然,分析相关性还可以选择用热力图来表示各个特征之间的相关性,这里旨在分享Excel数据透视表和透视图的用法,就不再赘述其他后台回复【透视表】,领取原始数据!

参考文章

https://www.zhihu.com/question/28048089/answer/742720983

https://zhuanlan.zhihu.com/p/26498531

https://zhuanlan.zhihu.com/p/50194676

https://mp.weixin.qq.com/s/__e9ZX2tpZls7U1_KVST5g

如果您觉得我们的文章还不错,请分享,点赞,再看,一键三连!!!

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-02-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据万花筒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档