首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PM2.5这个锅背的值吗?数据科学家建模给你论证下

PM2.5这个锅背的值吗?数据科学家建模给你论证下

作者头像
IT阅读排行榜
发布2018-08-16 15:11:18
2940
发布2018-08-16 15:11:18
举报
文章被收录于专栏:华章科技华章科技
空气质量究竟是不是变差了?

当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?

过去三年北京空气质量

网上众说纷纭,无图无真相。拿到2013年12月1日到2017年2月的逐日空气质量及污染物指标后,让我们plot一下:

(A)下图记录了从2013年12月到2017年2月的空气质量历史记录:每根柱子代表一个月;颜色越深,空气质量越差;绿色部分越多,空气质量越佳。

(B)再来看看PM2.5的变化趋势:

怎么样?慧眼如你,一定对近年的空气质量变化有所了解了吧(最起码,没有恶化呢)。

哪个指标对空气质量影响最大?

出门之前看实时空气质量报告已经成为常态。在报告中,通常会给出今日的空气质量等级、PM2.5浓度、PM10浓度、二氧化硫浓度等等一系列指标。但为什么我们对PM2.5而不是其他指标的关注最甚?

数字化世界,离不开算法和数据建模的支持。我们的数据科学家团队又出场了,这次用建模的方式来验证,PM2.5这个锅到底背的值不值?

下面我们将通过随机森林来对空气质量等级进行分类(所用的变量有PM2.5、PM10、CO、NO2、SO2、风速、大气相对湿度等十几个污染物和气象指标),并在这一过程中发掘对空气质量影响最大的指标。

先简单介绍下随机森林吧。

Q:为啥叫随机“森林”呢?

A:因为聚树成森林嘛:很多颗决策树打包组团,就成了森林。

Q:为啥叫“随机”森林呢?

A:这个解释起来就复杂些了,分两个方面:

①数据的随机选取:从原始的数据集中有放回抽样构造子数据集,利用子数据集来构建子决策树;森林中的每一棵决策树都会针对新数据做一次“决策”,最后通过投票表决出最终的结果。

②特征的随机选取:与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能;通过这一过程也能综合衡量不同变量的重要性。

随机森林中的一棵决策树长这个样子:

那么,“随机森林,你能告诉我哪个指标对空气质量的影响最大?”

好了,这里介绍两个指标:

  • 平均精度下降(MeanDecreaseAccuracy)
  • 平均Gini下降(MeanDecreaseGini)

这两个指标通过衡量各变量对模型预测准确度和Gini系数影响的大小,来判定变量重要程度,两个指标均是越大越好。

显然,右上角的变量(PM2.5)重要程度大于左下角。

PM2.5对空气质量的影响程度(或相关程度)最大,其次是PM10和NO2(二氧化氮)。因此我们可以说,PM2.5浓度与当日空气质量等级最为相关,可能是空气污染的主要元凶。

不同预警等级下的空气质量

最后,我们来看看中央气象台发布雾霾预警(分三级:黄色预警-橙色预警-红色预警)的情况。

冬季的确是雾霾的高发期哈,每年冬天都会“凸凸”一下。这个图再次说明,虽然现在的空气质量还谈不上好转,但显然没有变得更糟。

PM2.5

Vis

发布红色预警时,PM2.5平均浓度约为正常天气的6倍······

只要发布雾霾预警(不论是黄色、橙色、红色),能见度(Vis)水平几乎都是立马“趴下”,雾蒙蒙看不清······

我们年轻的数据科学家自己都禁不住感叹:天哪,以后一定要提醒妈妈关注空气质量预警预报。

最后

来个互动

你知道周几的PM2.5平均浓度最高吗?从中我们能得到什么启示?

END

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档