红色预警尚未结束,北京启用机器学习预测空气污染

【新智元导读】今年冬天北京启用雾霾预警系统,将传统的大气化学物理模型与机器学习相结合,力求在更短的时间内做出更精确的预测。12月16日启动的今年首次空气重污染红色预警,预计到12月21日夜间起逐步改善。

这几天,北京笼罩在团团浓雾中。12月16日,北京市发布了 2016 年首个雾霾红色预警,这意味着将连续 4 天以上出现重度及以上级别的空气污染。据新闻报道,北京已有 1200 家工厂停工或减少生产。

不只是北京,根据 2015 年世界卫生组织的全球疾病负担研究,2015 年大气悬浮颗粒物(不包括烟草烟雾)相当于 1.031 亿失能调整生命年(DALY,衡量人类生命的质量和长度的单位),被列为第六大疾病危险因素。解决大气污染问题成为政府以及企业的重要目标。据估计,未来五年空气质量监测市场每年将增长 8.5%,市场规模达到 56.6 亿美元。可以预测,空气质量预测的市场也将增长。

今年冬天,在雾霾的预警方面北京政府利用了 IBM 和微软的预测工具,两者都在去年进行过测试。IBM 的工具能够整合来自传统源的数据,例如北京各区域的 35 个官方建设的空气质量监测站,以及成本更低且更广泛的来源,包括环境监测站、交通系统、气象卫星、地形图、经济数据,甚至社交媒体。另一方面,微软的系统整合了来自全国 3000 多个空气质量监测站的数据。IBM 和微软的工具基于的原理都是将传统的大气化学物理模型与基于数据的统计工具(如机器学习)相结合,目的是在更短的时间内做出更精确的预测。

利用机器学习监测空气污染质量

根据北京大学 Xiao Feng 等人 2015 年发表在期刊“Atmospheric Environment”的论文“Artificial neural networks forecasting of PM2.5 pollution using air mass trajectory based geographic model and wavelet transformation”,预测空气质量通常分为确定性方法和统计方法。其中,使用统计方法通常更适合于发现空气污染物浓度和潜在预测因子之间潜在的复杂位点特异性依赖性(Hrust et al.,2009),因此,与确定性方法相比,统计方法建模一般具有更高的准确性。

常用的统计方法包括多重线性回归(MLR)、ANN、SVM、模糊逻辑、卡尔曼滤波器和隐马尔可夫模型(HMM)。一些研究认为,人类、气候和空气污染的相互作用太复杂,不能在确定性模型中表示。但是,证据表明,ANN 可以模拟非线性和交互关系取得比较准确的预测结果。尽管如此,ANNs应该与其他模型结合,以克服它们的局限性。

IBM 绿色地平线计划

IBM 中国研究院绿色地平线(Green Horizon)计划的环境工程师黄瑾在接受 IEEE Spectrum 采访时说:“我们的优势,或者说差异,是将所有这些结合在一起。”IBM 的系统预测 3 天空气质量的准确率超过 80%,预测 7 至 10 天的准确率约为 75%。

IBM Air Quality Management System

IBM 的预测工具包括一个用于判断的模拟器,例如判断是否需要关闭处于城市上风的工厂,或者实施交通干预措施。黄瑾说:“该工具能估算每种干预措施带来的污染减排结果和经济上的损失后果。”

根据官网介绍,IBM 基于其数据同化和认知建模的独有技术,开发了一个综合的空气质量管理解决方案,包括高分辨率空气质量预测、排放源识别和追溯,以及定量的政策决策支持。该解决方案的关键技术差异性包括:

1. 数据同化:模型预测误差通常是由于初始条件的不确定性。我们利用数据同化(data assimilation)来尽可能好地组合不同的数据来源,包括地面监测数据、天气数据、排放数据、卫星数据以及地理数据,以估计模型的初始状态(即初始条件),然后获得高准确度的空气质量预测。

2. 基于物理统计整合的认知建模:空气质量建模具有时间和空间的典型问题。我们利用多种模型,包括 WRF-CHEM,WRF,CMAQ,CAMx 等。由于每个模型实现最佳性能的条件不同(温度、风速、风力、地理条件)等,系统使用自适应机器学习机制来训练这些模型,并且自适应调整每个模型的参数,为每个特定情况选择具有最佳性能的优化模型。

3. 组合的污染源识别技术:我们结合灵敏度建模、反向/联合变分方法、便携式传感器以及社交媒体分析方法,对污染源进行识别和综合评估,可以满足执法或为长期污染物排放的控制制定战略的需求。

微软城市空气项目

根据 IEEE Spectrum 报道,微软与中国环保部合作,提供 48 小时的空气质量预测。2015 年在北京进行的测试显示,6 小时内预测的准确率达到 75%,12 小时的准确率约为 60%。根据介绍,微软采用的方法是:

1. 实时细粒度空气质量分析 该项目的第一步是使用两部分的数据来推断城市任意位置的实时细粒度空气质量。一部分数据是现有空气质量监测站的实时空气质量数据及历史空气质量数据;另一部分数据来自五个附加数据源,包括气象数据、交通流量、人员流动情况、POI、以及道路网络数据。

其中,这一技术的核心成果是微软亚洲研究院主管研究员郑宇等人在 KDD2015 获奖论文“

Forecasting Fine-Grained Air Quality Based on Big Data”。在论文中,微软的研究人员提出一种半监督学习方法,基于由两个单独的分类器组成的共同训练框架。一个是基于人工神经网络(ANN)的空间分类器,采用空间相关特征(如 POI 的密度和高速公路的长度)作为输入,为不同地点的空气质量之间的空间相关性建模。另一个是基于线性链条件随机场(CRF)的时间分类器,利用与时间相关的特征(如交通流量和气象),为空气质量的时间依赖性建模。

http://urbanair.msra.cn/

2. 空气质量预测 城市空气项目的第二步是预测空气质量。目标是使用数据驱动的方法,考虑目标监测站以及几百公里内的其他监测站的当前气象数据、天气预报数据、以及空气质量数据,预测在接下来的 48 小时内的空气质量读数。

据介绍,微软使用的预测模型包括 4 个主要部件:1)基于线性回归的时间预测器,用以模拟空气质量的局部因素;2)基于神经网络的空间预测器,用以模拟全局因素;3)根据气象数据,组合空间和时间预测器的动态聚合器;4)用于预测空气质量突然变化的变化预测器。

测试结果,使用中国 43 个城市的数据评估我们的模型,其结果超过了多种基准方法的结果。微软与中国环境保护部合作部署了一套系统,能够为四个主要城市提供 48 小时内的细粒度空气质量预报。该预报可以每小时更新,并可细化到站点级别的预测。其中前六小时可以做逐小时预报,7-12,12-24,25-48小时做一个最大-最小范围预报。必应地图、 MS 云平台以及 Azure 上也启用了该预测功能。

该项目还有更长远的计划,比如部署空气质量监测站点——利用大数据分析的方法,从推理准确度和稳定性最大化的角度,为新建站点选择最佳的位置、确定空气污染物来源,包括研究车辆废气排放和空气质量之间的相关性,以及研究空气污染在不同城市的时空因果关系。

其他方法

此外,其他的创业公司(比如 AirVisual)也在为私人商业用途提供利用机器学习增强的空气质量预测。下图展示了该公司所使用的预测系统的工作流程。

上文提到的北大论文,也提出了一种新的预测方法,旨在更准确地预测局部 PM2.5 浓度的峰值,这被认为是空气污染预测系统中非常关键的因素。

总之,预测空气污染就是使用来自相同信号的历史数据(单变量预测)或几个相关信号的历史数据(多变量预测)预测给定序列的未来的值。

如今,针对空气质量(尤其是 PM2.5)的 预测数据大多都是使用多变量预测制定的。

为了预测污染水平,系统的组成部分通常包括(但不限于)深度学习框架、有助于区污染水平和类别的算法——不过,由于深度学习缺乏表示关系的方法,并且往往很难学会这些关系,因此深度学习只是预测系统的一部分。

为了让系统有准确的输出,机器学习算法研究将当前空气质量和当前天气状况,以及与天气预报和历史空气质量相关联的模式。提供给机器学习系统的数据越多,预测就越准确。但难点是调参十分困难和复杂。

此外,由于空气污染本身受许多因素的影响,由于这些因素的不可预测性,预测结果也可能会发生错误。

未来技术挑战

大气科学家、哥白尼计划大气监测服务主管 Vincent-Henri Peuch 表示,怎样把物理模型和机器学习结合起来以实现最优的空气质量预测是当下活跃的研究领域。他补充说,把两者结合起来正确的选择:两种类型的模型各有优势,不需要排除某一方。到目前为止,市场也证明如此。IBM 现在在新德里和约翰内斯堡也提供组合的模式。

IBM 和微软都在着力将它们的软件推广到其他城市,一方面他们需要集成不同城市的物理模型,另一方面需要调整不同类型的输入数据及变化参数。

根据不列颠哥伦布大学的团队 2016 年的调查发现,每个新的环境可能都需要不同的机器学习算法。他们的研究发现,几种不同类型的机器学习的成本取决于包含的数据量以及在运算期间输入到程序中的数据量。

对于只有最近几年的历史空气质量数据的一些地方,例如北京,最好的解决方案可能与那些有多年历史数据的城市的方案不同。这对政府来说是挑战,他们需要为自己的城市选择正确的系统。Peuch 说,假如不在同一个地方使用完全相同的数据集,很难对不同的模型进行比较。

参考资料:

  1. http://spectrum.ieee.org/energy/environment/ai-and-big-data-vs-air-pollution
  2. http://www.sciencedirect.com/science/article/pii/S1352231015001491
  3. https://www.research.ibm.com/labs/china/greenhorizon.html
  4. https://www.microsoft.com/en-us/research/project/urban-air/
  5. https://airvisual.com/blog/5-ways-to-respond-to-a-polluted-city-what-type-of-beijinger-are-you

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-12-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

AI 又赢了! OpenAI 玩Dota 2在5v5比赛中击败人类玩家

原标题《Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)》

13330
来自专栏吉浦迅科技

(图解)神经网络的复兴:重回风口的深度学习

2012年,「GPU+深度学习」真正引爆革命火花 由于多层神经网络的计算量庞大、训练时间过长,常常跑一次模型就喷掉数周、甚至数月的时间,2006年该时也仅是让学...

403100
来自专栏机器之心

Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

我们团队构建的模型,OpenAI Five,已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下,但我们计划到 8 月份在有限英雄池下击败 TI 赛中的...

10720
来自专栏程序你好

VR技术: Facebook的3D照片是怎么回事?

12320
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

21030
来自专栏机器之心

专访 | 蚂蚁金服MISA:比用户更懂自己的自然语言客服系统

20330
来自专栏AI研习社

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

不抖机灵,想从接触过机器学习学术圈但已投身工业界的角度来回答。 我认为:大部分机器学习从业者不需要过度的把时间精力放在数学上,而该用于熟悉不同算法的应用场景和掌...

387100
来自专栏PPV课数据科学社区

如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?

编者按:这个问题放到更大的范围,也同样适用于回答“学习数据挖掘是否需要学好数学?”。作者从实践的几个方面给出了自己的理解,小遍认为还是比较好的回答了这个问题。 ...

42450
来自专栏数据派THU

清华大学张长水教授:机器学习和图像识别(附视频、PPT下载)

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据科学研究院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像识别》的演讲...

52030
来自专栏CreateAMind

以学习常识为目标的自动驾驶-commaai第三篇

12610

扫码关注云+社区

领取腾讯云代金券