R语言-中国各城市PM2.5数据间的相关分析

中国各城市PM2.5数据间的相关分析

相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。分类:

  • 线性相关分析:研究两个变量间线性关系的程度,用相关系数r来描述。常用的三种计算方式有Pearson相关系数、Spearman和Kendall相关系数。
  • 偏相关分析:当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。

在变量较多的复杂情况下,变量之间的偏相关系数比简单相关系数更加适合于刻画变量之间的相关性。

PM2.5细颗粒物指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物。它能较长时间悬浮于空气中,其在空气中含量浓度越高,就代表空气污染越严重。与较粗的大气颗粒物相比,PM2.5粒径小,面积大,活性强,易附带有毒、有害物质(例如,重金属、微生物等),且在大气中的停留时间长、输送距离远,因而对人体健康和大气环境质量的影响更大。

近日,京津冀遭遇“雾霾锁成”,廊坊、保定、石家庄、邢台、邯郸成为污染最严重地区。

很多网站提供了PM2.5(细颗粒物)及空气质量指数(AQI)的实时查询,比如:PM25.in北京市环境检测中心等等。这些网站只是对数据进行了展示,有的还做了很漂亮的可视化,但却没有做进一步的数据分析。

舍恩伯格在《大数据时代》一书中这样写道:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声。”以及“相关关系能够帮助我们更好地了解这个世界。”他认为,建立在相关关系分析法上面的预测是大数据的核心。通过找到“关联物”并监控它,我们就能够预测未来。

近年来,在生物学、社交网络和健康科学等领域常采用偏相关分析法应对高维变量的系统关联性问题;这种方法对分析我国几百个城市间的PM2.5数据之间的关联关系是否有效?下面,借助我从网上找到的PM2.5数据,通过R语言软件包对数据分别进行线性相关分析和偏相关分析。R是用于统计分析、绘图的语言和操作环境。R语言的spaceExt包的glasso.miss函数采用LASSO加罚的极大似然函数法,基于BIC准则确定惩罚参数,可以测算出几百个城市的PM2.5数据之间的偏相关系数稀疏矩阵,这个矩阵可以用来描述不同城市间PM2.5的复杂关系。

  1. 载入程序包&读入PM2.5数据
library(spaceExt)

library(igraph)

pm=read.csv(file.choose(),header = T)
  1. 数据查看
#查看部分数据摘要

ct=c(which(colnames(pm)=="北京市"),which(colnames(pm)=="天津市"),which(colnames(pm)=="石家庄市"))

knitr::kable(summary(pm[,ct]))

北京市

天津市

石家庄市

Min. : 30.00

Min. : 37.0

Min. : 34.0

1st Qu.: 64.75

1st Qu.: 71.0

1st Qu.: 89.0

Median : 94.00

Median :105.0

Median :134.0

Mean :122.98

Mean :124.4

Mean :160.2

3rd Qu.:155.75

3rd Qu.:162.0

3rd Qu.:216.0

Max. :394.00

Max. :372.0

Max. :487.0

NA’s :1

NA

NA

boxplot(pm[,ct],col=3:5)
#移除PM2.5数据缺失较多的城市

sel=which(rowSums(is.na(pm))>120)

pm_s = pm[,sel]#数据标准化

pm_sc<-scale(pm_s[,-1]) 
  1. 线性相关分析
cor_pm = cor(pm_sc)

g1=graph.adjacency(cor_pm>0.8, mode="lower", weighted=NULL, diag=FALSE, add.colnames=NULL, add.rownames=NA)

cl=c("#FFFF37","#00FF7F","#FF8000","#FF0080","#FF77FF","#4DFFFF","deepskyblue","chocolate","#FFAD86","#C07AB8")

com = walktrap.community(g1, steps = 3) 
#子群划分

V(g1)$sg = com$membership + 1

V(g1)$color = cl[V(g1)$sg] 
  1. 偏相关分析
res=glasso.miss(pm_sc,rho=0.5,emIter=10 ,penalize.diagonal=FALSE)
## [1] "Em step: 1"

## [1] "Em step: 2"

## [1] "Em step: 3"

## [1] "Em step: 4"

## [1] "Em step: 5"

## [1] "Em step: 6"

## [1] "Em step: 7"

## [1] "Em step: 8"

## [1] "Em step: 9"

## [1] "Em step: 10"
  1. 图网络模型可视化

上图展现的是相关系数大于0.8的各城市间的关联关系,其中不同颜色是使用随机游走方法进行的子群划分。

这幅图用LASSO加罚的极大似然函数法,采用BIC准则方法确定惩罚参数(L1范数=0.5),估计PM2.5数据的高维偏相关稀疏矩阵,然后对矩阵进行的可视化。遗憾的是,没有出来期望中的效果;或许是数据不合理,或许是L1范数值不合适,也有可能是这种复杂的偏相关分析法在分析我国几百个城市间的PM2.5数据之间的关联关系是无效的。总之,线性相关分析可以得出不同城市间的简单相关关系,而我期望的通过偏相关分析得出不同城市间的复杂相关关系如果成功了,可以更深刻的揭示在PM2.5治理过程中,哪些城市更应得到特殊的重视。


原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-09-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏游戏杂谈

3D引擎为什么使用三角形绘制曲面

这个问题是我第一次接触3D开发就有的疑问,最近在看《游戏引擎架构》(Game Engine Architecture),在书中找到了答案。

903
来自专栏华章科技

MIT牛人解说数学体系

导读:本文为深度学习和计算机科学大牛林达华教授在MIT攻读博士学位时梳理总结的数学体系介绍。

701
来自专栏数据结构与算法

洛谷P2158 [SDOI2008]仪仗队

题目描述 作为体育委员,C君负责这次运动会仪仗队的训练。仪仗队是由学生组成的N * N的方阵,为了保证队伍在行进中整齐划一,C君会跟在仪仗队的左后方,根据其视线...

31610
来自专栏斑斓

统计学中的相关性分析

掌握一点儿统计学介绍了统计学中常用到的函数,特别重点介绍了Standard Deviation(标准差)。接下来结合一个案例来谈谈相关性(Correlation...

3097
来自专栏Vamei实验室

线性代数01 线性的大脑

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁任何形式转载。

1343
来自专栏AI科技评论

韩家炜在数据挖掘上开辟的「小路」是什么

AI 科技评论按:前些日子,数据挖掘领域的巨擘韩家炜教授 [1] 在中国计算机学会(CCF)主办的第 87 期 CCF 学科前沿讲习班(CCF Advanced...

4688
来自专栏PPV课数据科学社区

连载 | 概率论与数理统计(2) – 随机变量概述

作者:Belter。专注于生物方向的数据分析,一位编程爱好者。关注Python, R和大数据。

591
来自专栏牛客网

机器学习:2018校招面经真题网易:创业公司:

先说下楼主的情况吧。楼主统计专业本科生,无实习经历,项目也很水,两个数据分析比赛,没有名次。我估计牛客没有几个比我背景更差的了,但是最后还是拿到offer了,所...

47811
来自专栏CSDN技术头条

MIT牛人梳理脉络详解宏伟现代数据体系

在过去的一年中,我一直在数学的海洋中游荡,research进展不多,对于数学世界的阅历算是有了一些长进。 【为什么要深入数学的世界】 作为计算机的学生,我没有任...

18810
来自专栏机器人网

一图向菜鸟解释机器学习、数据挖掘

随着数据科学在人工智能发展中大放异彩,数据挖掘、机器学习进入了越来越多人的视野。而对于很多人来说,诸如机器学习之类的名次听起来是神乎其技,但其真正的内涵却不为一...

2807

扫码关注云+社区