首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据可视化 桑基图

数据可视化系列文章

multiple correlation

桑基图

桑基图最初由爱尔兰工程师Riall Sankey创建,故得名。桑基图是升级版的构成图,也属于多元构成图。其最明显的特征就是,各主支宽度的总和与所有分出去的分支宽度的总和相等,以保持各类百分构成比的相等。

问题

数据源自2014年福建省的人口流动情况统计表。此类数据均为政府职能机构通过行政程序,如办理暂住证、就业登记、生育和节育管理获得的,具备很高的准确性。

数据涉及跨省流入人口、省内流动人口、本省流出人口等三大人口流动类型,在这三种人口流动类型中又分别统计了不同性别和不同年龄的人口数指标。一般的统计分析,是按照不同性别和不同年龄分组,计算三种人口流动类型的构成比(表1)。

表1 2014年福建省人口流动状况分析

注:数据源自福建省卫生和计划生育委员会《2014年福建省流动人口结构情况表》

首先尝试传统统计图,先绘制一个流动人口流动类型构成的饼图,很明显,福建省输入人口多于输出人口(蓝色的面积明显大于橙色的面积,参见图1),为此可以判断,福建省属于人口输入型省份(图1)。

图1 2014年福建省流动人口流动类型构成(%)

接着来看看,按性别分组的流动人口流动类型构成情况。从图2 可见,无论男女,福建省都是输入人口多于输出人口,同时,也都是省外输入的人口多于省内流动的人口,省外输入与省内流动人口的比大约都是1.5:1。深入一点比较,相对输入人口而言,输出的人口中女性比例高于男性。

图2 2014年福建省性别分组的流动人口流动类型构成(%)比较

再看流动人口的年龄结构。无论男女,30-44周岁者占50%左右,这是劳动力中的主力军(图3)。由于资料所限,目前暂无法了解到输入或输出人口年龄构成是否存在不同。

图3 2014年福建省流动人口中性别分组的年龄构成(%)比较

上述均为最为传统的统计图展示内容。已经基本将分析内容传达出来了。但是美中不足是,3张统计图表只表述各自的主题,却将原本互相关联的问题分开展示,可见,面对分组要求较多的情形,或面对需要整体观察的情形,传统的构成图就显得力不从心了。

解决方案

1

数据准备

将原始数据输入Excel电子表格中,格式如图4所示。桑基图的数据结构很简单,需要有三列数据信息:起点(Scoure)、终点(Destination)、权重(Weight)。以表1中的数据为例,省外流入的男性人口为2391927人,所以在这组数据中,起点(Scoure)为省外流入,终点(Destination)为男,权重(Weight)为2391927。虽然桑基图的制作只需要这三列数据,但是桑基图可以做出多级节点,在数据整合上,我们需要事前将所有节点对应的起点、终点和权重值都顺序的纵向合并为三列字段。

图4 数据准备截屏

2

绘制桑基图

(一)启动软件

双击Power BI Desktop图标,启动Power BI软件。在右侧“可视化”窗口的示例图表区,点击“…”选择“从文件导入”项,将已下载好的桑基图(Sankey Chart)拓展图例文件导入(图5)。

图5 桑基图拓展图例导入界面

(二)数据导入

导入已经处理好的桑基图数据源。开始→获取数据→选择需要的数据表格(图6)。之后会自动跳转至一个导航器的界面(图7),选择好相应的单元表即可,导航器的界面右下方可见三个选项,如果前面创建的数据图表没有问题可以直接选择加载;如果想进行相关的进行修改,也可点击右下方的编辑按钮,便可以对数据进行修改,都是非常便于使用者操作的。

图6 桑基图数据导入界面

图7 桑基图的导航器

(三)参数设置

如下图所示,拖入相应的数据字段至可视化下方的栏目中即可。

图8 桑基图的参数设置

(四)个性化修饰

可以根据需要,对做好的桑基图进行颜色的修饰,让图看起来更加的直观,更能带给使用者视觉体验。本例中,还需要开启Data Lable开关,以便显示项目内容,此外还有其他个性化修饰方法,可以根据自己的需要来设置(图9)。

图9 桑基图个性化修饰选项

最后,得到修饰完成的桑基图如图10所示。图中淡粉色的均为男性信息,浅绿色的均为女性信息。中间的性别分组为主支,两侧的流动类型和年龄组为分支。理论上分支还可以再向两侧扩展。主支和分支之间用曲线条相连,曲线条的宽度大小与构成比数字大小是呈现严格比例关系的。读者可以比较直观地读出多元构成之间的量化关系,进而判断出相应成分的大小。

图10 2014年福建省流动人口性别、年龄和流动类型构成(%)

评价

在本例中,桑基图较为直观的展示了流动人口相关因素的结构分布情况,效果远胜于传统统计图的展示方式,因为后者很难将超过两个因素(亦即二元以上)的构成比关联起来。实际上多元构成数据在医学领域是很多见的。比如,与患者性别、年龄、疾病亚型、治疗效果相关联的构成比分析;又比如,与肿瘤分期、手术方式、术后存活年数相关联的构成比分析。这些都可以采用桑基图展示分析结果。虽然国内对桑基图的认识及使用较少,但因其具备直观、易于理解、便于分析各种复杂的流量关系等特点,必然会发挥越来越重要的作用,有很好的推广价值。

原创人员:杨斯华

指导老师:黄子杰

微信编辑:汤蝶

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190120G0SKA400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券