遇见大数据可视化:来做一个数据可视化报表

上篇文章简单的介绍了数据可视化的基础,将数据进行设计可视化后,可以让我们有一种全新的方式去认识数据,改变对数据的呈现和思考方式。那现在就让我们开始做一份数据的可视化图表,一步步的来看下我们如何获取数据,以及如何进行可视化的展示。

在上章内容中,提到了关于【数据可视化迭代过程】的步骤,这也能看出整个过程包含的步骤,大致有:1. 确定主题 - 2.数据获得 - 3.图表选择(表达)- 4图表绘制。

当然了我们也可以看到可视化是要一个不断迭代的过程,步骤之间都需要多次的迭代修改的。

确定主题

这肯定是第一步了,在做数据可视化的时候,首先你要明了你要做什么,想要从数据获中取什么信息,有了目标才能明确的往下做。

那我们这次还是来做关于空气质量PM2.5的数据展示,了解历年来PM2.5的实际情况和发展趋势。

数据获得

对于全国空气质量的数据,最权威的来源肯定是来自于中国环境监测总站(http://www.cnemc.cn/) 的数据提供。但是监测总站的API提供的并不是很详细,还有很多第三方也提供类似的API接口,比如PM25.in(http://pm25.in/) ,在API说明上做的很详细,他们的数据每日更新。所以这次我们选择PM25这个网站来获取数据源。

我们可以看到PM25提供的内容是相当多,包括PM2.5、AQI、PM10、CO、NO2、O3等等。我们只需要PM2.5的数据,所以我们把其他不需要的数据都可以去除掉,同时把Json的数据转换为CSV的数据格式,这里转换数据只是为了下一步处理方便,我这边是选用Processing来做数据可视化处理的。如果你用D3.js,Echart来做的话,Json可能会更方便点。

图表选择(表达)

对于很多人(非设计师)来说数据可能容易获取,但是像要把数据转换成合适的图表进行表达反而非常困难的。因为同样的数据,用不同的图表进行展示出来,得到的效果是完全不一样的。在平时我们可能用到最多的就是通过Excel来做的图表,在Excel2010的版本里面,提供了10类共53个图表,还提供了什么数据透视图,自定义图表等等,总之种类非常多。不过尽管图表种类繁多,但其基本类型只有以下几种:

  • 曲线图:用来反映随时间变化的趋势;
  • 柱形图:用来反映分类项目之间的比较,也可以用来反映时间趋势;
  • 条形图:用来反映分类项目之间的比较;
  • 散点图:用来反映相关性或分布关系;
  • 饼图:用来反映构成,即部分占总体的比例;
  • 地图:用来反映区域之间的分类比较;

那知道了基础图表的类型,如何去做图表的选择呢?国外专家Andrew Abela他将图表展示的关系分为4 类:比较、分布、构成、联系。然后根据这个分类和数据的状况给出了对应的图表类型建议。当我们不确定使用什么类型的图表的时候,可以参考下这个图。

图表绘制

俗话说【不会撸码的交互不是好的数据可视化设计师】,虽然现在市面上有各式各样的可视化的方法和工具,但坦白来说【这些可视化工具都是大坑!!!】,要想做好可视化的表现,最好的方式还是需要掌握一门编程语言,只有这样你才能最合适的表达清楚出你想传达出来的数据信息。

这里给各位想跳入数据可视化这个大坑的设计师们(编程大佬请无视),推荐一下Processing这个创意编程语言。

Processing是美国麻省理工学院媒体实验室旗下美学与运算小组创造出来的(就是搞设计的人做出来的编程语言),非常容易上手,代码逻辑也很简单,几段代码就能做出十分出现效果的展示,下图就是Processing的界面。

不过Processing没有代码提示的功能的,用起来还是十分痛苦的,经常是因为一个单词写错了,而造成程序报错。不过后来我发现到Subilme Text能支持Processing的编译环境,而且能提供代码提示功能,简直是发现新大陆一样,从此Processing用起来再也不费劲了。欢迎大家一起入坑Processing一起学习。

确定用Processing来实现后,我们继续来做PM2.5的可视化展示。国家环保部将空气质量分为六个等级,分别用绿、黄、橙、红、紫、褐六个颜色来标注,对于着优、良、轻度污染、中度污染、重度污染和严重污染六个空气质量。我们要展示历年来PM2.5的实际情况和发展趋势,就可以把每天的空气质量转换一个个不同颜色的小方格,通过颜色的区别来展示当天的PM2.5情况。

先在纸上画一个简单的草图。已年为划分,下面用小方格展示该年内每天的空气质量是什么等级,把当天的PM2.5数值转换对应的颜色值。

确定方式后,开始撸代码,代码很简单的,我大概编写了40来行就完成了,代码逻辑很简单就是先导入数据,然后判断当前数据的值是多少,根据不同的值赋予小方块不同的颜色。

实现之后,看起来就是这样子的。日期时间轴是按照1月到12月排列的,通过上面的图示我们可以比较清楚的看到污染程度比较高的时间是集中在开头和结尾,就是1-2月,11-12月之间,也就是每年冬天就是PM2.5污染程度高的时间。

我们继续把成都历史的数据可视化后来看下。我们发现12年之前成都空气质量都还不错的,在14年的时候,就没有小绿格了,可见14年成都空气质量有多差劲,15年、16年后慢慢的开始有点好转。我们在把北京,上海和深圳的天气拔来看看。

第一列是成都08-16年的空气质量,第二列是北京的,第三列是上海的,第四列是深圳的。可见深圳的空气质量完爆成都、北京和上海。几乎全是小绿格,真是宜居好地方。而帝都北京空气质量是这四个城市中最差的。其中14年都是上述几个城市空气质量最差的一年,而也是这一年央视记者柴静从央视辞职出去开始拍摄雾霾的深度调查,在第二年2015年2月28号推出纪录片《穹顶之下》,引发了公众的一片哗然,全民开始关注雾霾,政府部门也开始着手治理雾霾,15年、16年开始有所好转。

小结

通过数据我们能看出起因,也能看到结果,这就是数据的力量。将数据可视化后,我们可以发现数据中更大的意义,最重要的还是实践做出来,这篇文章简单的讲解了下可视化的整个过程,我们如何寻找数据,以及做出有意义的可视化图表出来。希望更多的人兴趣,一起来做数据可视化。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1013
来自专栏C语言及其他语言

[每日一题]最小重量机器设计问题

以后就将咱们一部分月赛的题目拿出来给大家练练吧! 题目描述 设某一机器由n个部件组成,每一种部件都可以从m个不同的供应商处购得。设Wij 是 从供应商j处购得...

2655
来自专栏CDA数据分析师

【图表大师一】如何让Excel图表更具“商务气质”?

如何让Excel图表更具“商务气质”? 文/ExcelPro的图表博客 这是去年底的时候,应《电脑爱好者》杂志约稿写的一篇小文,内容大致是《图表之道》第1章的略...

2118
来自专栏牛客网

[缘分]霸面,四小时,百度算法offer

[待更新] 秋招快结束了,本想写点多家公司的面经记录一下,但是大都记不清了,只有百度的面试过程还记的清楚,希望能够帮助到今年的同学或者以后的学弟学妹。总的来说,...

3748
来自专栏全栈数据化营销

微信公众号数据分析:内容偏差是不增粉的主要原因

之前对一家做超市的微信公众号数据做了分析,首先是把公众号数据导出,在做了数据处理之后,对这些数据做了聚类分析,在尝试了多次的聚类之后,发现把类别分为5类,聚类的...

1495
来自专栏小樱的经验随笔

HDU 2546 饭卡(01背包裸题)

饭卡 Time Limit: 5000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/O...

2855
来自专栏PPV课数据科学社区

【学习】为什么你的数据分析那么好,图表做得那么烂?

导读 所有优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当...

2843
来自专栏互联网杂技

你的布局设定方法靠谱吗?

本文不适合采用天才设计(Genius Design)方法的人士。 有一种“奇怪的”现象会经常的看到“很多设计师没有办法清楚的跟其他人解释他们是如何设计的,越细致...

3537
来自专栏ml

HDUOJ---2546 饭卡

饭卡 Time Limit: 5000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/O...

3175
来自专栏進无尽的文章

如何建立一款App的配色方案

当我们评价一款app时,配色应该是仅次于其功能性的另一主要因素。现如今人机交互主要通过GUI来实现,色彩在交互过程中扮演着重要的角色。良好的色彩搭配会帮助用户发...

984

扫码关注云+社区