大数据在环境保护中的应用

本文是作者在2018年8月18日众智汇社群分享的记录。由@L 记录整理。

作者:王情 环境保护领域科研人员

中科院地理资源所地图学与地理信息系统博士,清华大学环境科学博士后。

曾就职于环保物联网企业,应用数据技术解决工业生产中的环境问题。

目前任职于某科研单位,从事环境健康研究。

拥有环保领域大数据技术的工业应用经验和科研前沿成果。

环境保护需要大数据

自从2015年8月国务院发布"促进大数据发展行动纲要",将大数据提升为国家发展战略以来,在市场需求和国家战略引导下,大数据技术在各行各业的应用得以加速推进,在生态环境保护领域尤其具备广阔的应用和发展前景。

早在2016年初,环保部——即生态环境部,就颁布了生态环境大数据建设总体方案,明确我国将通过大数据建设加强环境保护。基于这样的背景下,目前环保大数据发展很快。

现阶段在生态环境保护和环境健康领域方面,主要存在以下几个矛盾:

  1. 长期存在的生态环境问题与人民群众日益增长的对美丽健康环境需求之间的矛盾;
  2. 日积月累的海量大数据与数据孤岛、多元数据共享/融合困难,以及数据应用需求暴增之间的矛盾;
  3. 日益提升的环保监测监控技术水平和数据获取能力与工作服务不足之间的矛盾。

这几个矛盾,恰恰是大数据的发力点。

物联网助力环保大数据

随着数据获取技术的进步,特别是物联网技术的广泛应用,各种环保传感器(例如监测pm2.5或其他的污染气体的传感器)日益发展,成本也在降低。

举个例子,比如说pm2.5的监测设备,过去都是十几万几十万一台的高端标准化设备,例如:微量震荡天平,贝塔射线监测仪等。

因为造价很贵,只有通过政府投资,一个城市也就只有一个或者几个站点可以监测空气质量,很难实现密集监测。

近些年随着市场的推动和技术的发展,光散射法监测设备只要几百块一台,技术进步推进了广泛的监测,并且实现了民间监测。

同样,水、大气辐射源、污染源等,都实现了自动的连续在线监测,监测站点也越来越密集。

还有空中的卫星遥感监测,无人机拍摄航拍等,技术的发展和应用,特别是国家的重视,对于环境监测方面起到了极大的推动作用。比如:国家开展了多次针对不同专题的全国性和区域性的水利、土壤的普查、清查。

因此,多年来积累了大量的生态环境数据,而且每天都在不断地收集大量的实时数据,汇集到环保部门的系统平台。

当然,广义的生态环境大数据不仅仅是以上提及的这些生态环境业务数据和监测数据,还有包括更大范围、更多层次结构的相关数据:互联网数据,人口、地质、气象数据,以及数值模拟计算(像天气预报数据),还有社会公众相关数据(比如公众环保举报,社交媒体相关数据)等等。

案例:大数据应用于环境保护

下面我结合自身的工作经历,介绍几个大数据技术应用于环保的案例。

【案例I】排污权许可发放与排污权交易平台

首先,政府部门确定出一定区域内的环境质量目标,结合该区域生态环境的自净能力,评估该区域的环境容量,以及对某类污染物的环境承载力,从而推算出污染物的最大允许排放量。

然后,并将最大允许排放量分割成若干排放权,发放给各个企业——这就是排污权

政府选择多种方式分配这些排污权,并通过建立排污权交易市场平台,使得这种权利能够合法的买卖——这就形成了排污权交易

在排污权市场上,排污者从自身利益出发,自主决定其污染治理的程度,买入或者卖出排污权。

政府通过这种排污权许可发放和排污权交易,对区域的各类污染排放进行总量控制,确保污染源排放控制在合理范围,经济发展与环境保护相协调。

上面提及的区域环境容量的估算,允许排污量的分配,企业生产相关数据,包括生态环境的本底数据等内容,都需要基于大数据技术来进行测算。

排污权交易系统平台本身也是一个大数据系统。平台由政府来管理。企业可以通过平台来查询谁家有排污权要卖掉,或者来进行线上的排污权交易。

该平台涉及政府用户和排污权买卖的用户,具备排污权信息管理,交易的管理许可证管理等功能。能够实时的掌握整个区域排污许可证的核发、总量核定,实现排污权交易指标的动态化管理。

这样一个复杂的平台系统,是由企业开发后移交给政府管理使用的。

【案例II】污染源实时监控

污染源实时监控是指在企业的排污染排放末端(例如烟囱口、废水排放口)安装监测仪器,监测水质和废弃的污染物含量。

这一监控技术已经发展了很长时间,现在还安装视频监控,将污水处理厂的进水口、出水口,工厂的河流上游和下游,进行水质的实时在线监测。

为了杜绝数据造假,同时会对企业生产设备和环保设备的运行情况进行在线监控。当发现企业的环保设备停止运行,但是生产设备依旧在运行的情况,系统就会进行数据异常自动报警。

这些监控数据会通过加密的高速传输技术,实时发送到部署在环保局的污染源在线监控系统。环保工作人员通过这个系统能够实时的检查这些企业的监污染排污情况,

这样就方便环保部门第一时间发现违规的排污行为,采取远程或者现场去执法行动。

【案例III】空气污染实时监控与溯源

当时环保局对我们提出了空气污染实时监控的需求后,我们提出了双层多元监控网络的设计。

什么叫双层的多元监控网络?就是一共有两层网络:

  • 第一层网络是基于标准化的监测仪器,为此我们建设了十几个标准站点。
  • 第二层网络利用低成本的分布式传感器,基于行政村建设了几百个小型空气污染监测点,实现3到5分钟传回传一次数据。

这种双层网格的构建均匀而密集的覆盖了整个区域,获取了高效的区域空气质量数据。

系统后台是基于地理信息系统开发的平台,将这个前端实时传输回来的空气质量数据叠加到这个区域的行政地图和污染源地图上。

以这些专题地图为基础,利用数据融合空间分析、可视化等技术,将多元的实时监测的数据进行自动的修约校准,融合统计分析,图形化,自动生成时空动态趋势图。

这样,环保部门的领导直观的能看见这个区域环境空气质量的时空变化,并且能够锁定污染源的外延及其扩散趋势。

通过物联网和大数据技术,为环境执法,逐级考核,还有环境管理决策提供依据。

【案例IV】 自然保护区生物多样性的监测与保护

目前自然保护区面临着诸如:人为干扰严重,生物多样性降低,生物受到威胁等问题。怎么来利用大数据和物联网技术来解决这些问题呢?

我们利用空气质量、水质的在线监测,使用红外相机,视频监控,还有无人机,以及数据实时高速传输技术,建设了一套自然保护区生物多样性监测系统。

这个系统具备的功能有:

  • 对保护区内珍稀动物的数量和活动状况进行远程监控;
  • 对保护区的环境质量指标进行实时监控;
  • 对盗猎者非法闯入,进行视频监控和自动报警,从而保护生物多样性等。

这套系统目前在我们国家有几个保护区都已经投入使用。

【案例V】阿里云的蔚蓝地图

蔚蓝地图的开发者把全国超过9000个废气废水排放源的排放数据放到app上面。公众可以实时查询,也可以通过微博这些社交平台,对超排、超标排放的大型企业和污水处理厂进行举报。

借助大数据处理能力,将空气质量查询也就扩展到了380多个城市。而且配合水污染治理行动计划,将企业排放数据的查询功能,从废气扩展到废水实现每小时更新一次。

根据网上的报道:自蔚蓝地图2014年6月上线以来,公众积极举报,山东浙江等多地的环保部门跟进推动,成功的促进了400多家大型火电、钢铁、水泥、建材、化工、石化等企业对在线数据超标作出说明,其中相当一批已经采取了整改行动。

环境健康研究领域的大数据应用

2015年底,我离开企业,进入环境健康研究的科研单位以后,开始从事环境健康研究工作。在此和大家分享一下经历和体会。

环境健康研究什么?

大家都知道环境是人类生存发展的物质基础,也是与人类健康密切相关的重要条件。

人类为了生存发展需要开发利用环境中的各种资源,这个过程中也会使环境受到破坏,直接或者间接地影响人类健康。比如:

  • 工厂的锅炉排放污染物,使空气中污染物浓度超标;
  • 工厂排放废水,使水体中重金属含量超标;
  • 蓄禽养殖,无序排放,使得水体黑臭,富营养化;
  • 食物中农药残留或者抗生素含量超标危害食品安全等;

都是人类活动对环境的破坏。

这种破坏和影响在一定程度内的时候,环境和人体具有的调节功能能够使失去平衡的状态恢复到原有面貌,像弹簧一样的弹回来。

但是如果污染超过了环境和人体所能承受的限度,就可能造成生态环境失衡,或者造成人体的生理功能被破坏,导致对人类健康的危害。

环境健康就是研究环境的不同介质在不同状态下对人体健康的效应,并将其定量化。

大数据如何支撑环境健康研究?

我们先来说说环境健康大数据包括哪些方面的数据:

1. 环境类的数据

包括水、土、空气、噪声的污染,固体废弃物,生态数据,植被覆盖情况,水体情况等。

2. 气象数据

包括常见到的温度、湿度、气压、日照等。

3. 人口社会经济类数据

这类数据相对广泛,包括城市GDP,居民收入、受教育程度,城市人口密度,空调拥有率,空气净化器与有空气净化器拥有率等等。

4. 环境健康类数据

包括医院某类疾病的就诊记录及数据,病人信息,出生缺陷数据,地方病数据,体检数据(这属于保密数据),死因监测,慢病监测数据等。

早在零几年的时候,国家就建立了一个全国死因监测系统,对一些导致死亡的疾病进行了监测并存下了数据。现在又在部分试点城市开展了慢病(慢性病,比如说冠心病,高血压、糖尿病、肿瘤等等)监测。

这些数据都能用于我们的环境健康研究。

5. 医疗的基础设施数据

记录城市或者居民区周边的医疗基础设施的情况,比如医疗机构分布在哪,是近还是远等。

6. 科研成果数据

包括以往国内外研究成果,比如某类污染物的暴露参数,暴露与健康情况的反应关系等等。

上面说了这么多环境健康的数据,这些数据其实都有很多年的积累了。但是问题是它们分散在不同的部门,例如:环保数据在环保部门,健康数据在医院或者疾控中心,气象数据在气象部门。

并且不同的数据也具有不同的数据结构,需要集成和融合才能更好的应用,以促进环境健康的研究及政府决策和公众服务。

这正是大数据技术的用武之地!

案例:大数据应用于环境健康研究

【案例I】环境健康监测平台

我们建立的环境健康监测平台,通过建统标准来集成各类数据,进行环境健康的效应评估,风险评估,和未来风险预测,从而支撑政府的决策。

同时开展公共环境健康数据服务,对公众分享非保密数据。

这个平台是怎么来实现数据融合的呢?

目前是让地方各级政府的各个相关部门基于我们提供的模板进行统一收集我们需要的环境健康类数据,比如某个区县的环境数据,气象数据,健康数据,医疗数据,各种疾病数据等。

理论上,这些数据每年都要更新一次。

我们在后台系统上建设了数据应用的各种模块(风险评估模块,建环境健康效益评估模块……),对输入数据进行分析,来定量化暴露反应关系。

同时这些数据还可以帮助我们刻画全国不同区域的风险等级分布。方便各个区县、省,看到他们所在区域在环境健康风险上的等级,或者跟其他区域进行比较,从而知道以后该往哪个方向发展。

【案例II】政府和公众服务

墨迹天气,还有之前提到的蔚蓝地图,还有我们单位开发的空气医生app,都有这个功能:空气质量的预测预报和健康风险预测。

这些APP的一个共同特点就是能够同步集成气象数据,排放清单数据,地面监测数据,城市污染源数据,环境执法的数据,以及气象预测数据,来构建预测模型,实现未来一段时间的空气质量预测,以及对健康影响的预测。

这些功能会指导公众采取一定的健康防护措施,从而降低空气污染的健康影响。

【案例III】 空气污染健康效应研究

这是一个纯科研的项目——基于各个地方传送来的空气污染的实时监测数据,和健康状况数据,基于个体或者群体开展健康效应的定量研究。

我们利用暴露浓度和暴露反应的关系,以及相关疾病的基础发病率(比如脑卒中的发病率,出生缺陷的发生率等),再结合人口数量与年龄结构信息,基于评估模型来计算地区空气污染造成的人群健康寿命的损失年。

另外,我们还会利用上述数据,构建评估模型,评估与空气污染直接相关的不同疾病。

当然这些都还是科研的数据。比如,WHO的全球疾病负担评估系统,评估出全球空气污染导致的超额死亡的三百多万人中,中国就占了一百多万人——这是人家评估的一个结果。

像这类评估需要集成环境数据,来估计暴露浓度;集成医疗健康数据(死亡率,某类疾病的发病率等),和基础人口数据,在大数据的支持下,实现环境健康的效应评估。

针对这个案例,我们发表了一些英文文章,评估中国空气污染对我们居民造成的健康影响,造成的超额死亡人数,还有人群寿命损失年等等的。这些研究成果得到了国际同行的认可。

【案例IV】 基于个体的空气污染健康效应定量分析

上面提到的是基于全国人群,还有或某区县人群的空气污染健康研究。接下来要讲的基于个体的空气污染健康效应定量分析。

我们有一个个体暴露监测研究。具体内容就是:

招募一个志愿者,让TA佩戴比较高精尖的传感器,实时实地监测TA所在的环境的暴露浓度;或者在TA家里/办公场所安装传感器,监测环境污染浓度;或者在固定站点监测数据,加上实时定位,匹配志愿者身处的环境状况。

基于个体接触测量和环境暴露的动态数据,再结合:

  • 个体的健康数据(一般是体检的数据,必要的时候还会采集唾液、血液、尿液等样本化验)——这当然都是个人保密的数据;
  • 个人生活因素;
  • 个人饮食习惯;
  • 其他环境因素等。

在控制各种混合因素的前提下,来评估这个个体得到这种定量化的空气污染与不同健康效应的暴露反应的关系系数。从而为整个群体的评估来提供数据。

环保领域应用大数据技术的障碍

1、数据保护主义

数据保护主义——不同部门之间数据不愿意共享——是个通病。也是管理上的瓶颈。

这一点,首先应该从环保部门内部打破业务区域的限制。

然后,不同部门之间(比如环保部门与疾控部门、医院之间)存在的数据保护主义,也应该去消除掉。

只有将这些数据共享和集成,形成真正的大数据,才能最大程度地发挥它的作用。

此外,还有一些企业拥有环境数据。因此,环保部门也应该与企业以及社会组织进行数据共享。

2、数据标准规范不统一

生态环境保护和环境健康研究,都是典型的跨行业多类型的大数据综合应用业务。源数据来自于不同的部门,遵循了不同的数据标准。

这些标准在各部门内部的数据组织管理上可能发挥了很好的作用,但是不同部门之间的数据规范不统一给数据共享、检索和整合带来了困难。

使得不同数据获取系统之间,难以形成对话,或者对话成本很高。

这时目前的技术难题和瓶颈。不同系统之间应该开发一些转换接口,来实现数据流动。

3、公众数据价值未被挖掘

之前讲的是传统意义上的数据融合分析。

互联网的发展为我们提供了许多新的数据源,比如:智能家居采集到的数据;健康终端(手环等)采集到的数据;个体健康数据等,都可以用起来。

资源在共享的情况下,才能够发挥重要的作用。我们要突破管理和技术瓶颈,真正重视公众数据,开发新型的平台或者方法,能把公众数据用起来。

企业与科研单位在大数据应用方面的差异

下面,基于我过去五年多在企事业单位工作的经历,来谈一下企业与科研单位在大数据应用方面的差异。仅为个人的观点。

科研单位应用大数据最主要的目的是通过数据分析做出科研报告(比如每年提交健康风险评估报告),作为一个高层的决策支持。

科研单位本身也具有些许行政功能,所需数据是通过科研院所自身的行政能力,或者更高层的行政手段来获得的。

获得了数据后,科研单位可以委托企业来开发数据系统,是甲方。

乙方企业拥有大数据研发团队,其价值主要体现在技术实现上。

企业负责搭建大数据采集和应用的平台,需要确保平台的平稳运行来服务环境监控与管理。

而企业在政府部门允许的情况下,基于自己收集到的数据资源,也可以进行环保大数据应用的探索。从而促进大数据更好地应用于环境保护和科研单位。

Q1:环境保护大数据平台底层用的是什么技术?

A1:不同部门采用的具体技术不一样,但一般来说都是基于地理信息系统的。

因为生态环境数据要基于空间位置,所以很多平台建设都是基于GIS,根据空间位置关系来叠加不同的环境数据。

Q2:pm2.5与肺癌到底是怎样的关系?

A2:当然pm2.5会对肺癌的发生发展会有一定的影响,而且也有一些定量的数据,比如全国有多少多少肺癌的超额死亡是与pm2.5有关系。

但这很难说是一个绝对的关系。如果说生活在pm2.5中的环境里面就绝对会得肺癌,是不科学的。

如果你长期生活在这种pm2.5比较重的城市里面,肯定会有一些影响,但这个定量的关系都是学者不断研究的方向,也没有统一的答案。

我们之研究过我国的pm2.5在现在和将来会对由肺癌引起的超额死亡贡献多少个死亡数。具体数字不方便透露,不过我可以告诉大家,pm2.5对肺癌的影响低于抽烟。

Q3:短期暴露在高浓度的pm2.5中,和长期暴露在中低浓度pm2.5中,哪个对健康影响更大?

A3:基于我几年的工作经验,个人的观点:这是要分不同的人群。

对于心脑血管或者呼吸系统疾病比较严重的病人,在短期的暴露情况下,可能会加重TA病情的恶化。

但如果是一个健康人群,长期暴露的影响会比较大。

Q4:区域环境数据实时监控,每个监测采样点一般是多大范围?

A4:不同地区不一样。

我们建的光散射法小型监测站点,是一个行政村一个。

标准化空气污染监测站点一般是一个乡镇一个。当然现在政府投入多了,可能有些地区分布更密集。

Q5:平台的数据储存方式是什么?

A5:现在的平台应该都是分布式存储,具体的技术方面的细节不太了解,但是存储应该不是传统数据库。

Q6:目前环境健康大数据在企业和政府部门有什么不同的应用?

A6:环境健康大数据和环境保护大数据应用,都是政府和事业单位的行为。

企业主要是为政府实现需求。企业不会去做公益事业。

政府部门向环保局,还有像我们这种科研机构,提出需和部分数据,然后企业去从技术上实现这些大数据的采集应用。

当然政府部门也会有研发团队,或者科研团队,进行数据分析和方案撰写。

Q7:土壤监测好像没有实时的,是因为成本高吗?

A7:土壤监测,相对于空气和水的质量监测,并不是成本高,而是没有必要实时。因为很多地方的土壤,流动性差,几个月都不会有什么改变。

据我了解,土壤监测采样点,一般每年会定期的去采一些样回来,检测成分、污染物的含量等。

但如果有一些紧急的情况,比如说某处通报区片污染什么的,也会做专题检测。

Q8:政府对于环保的长期规划?

A8:从2013年开始,陆陆续续出台了好多办法和政策,例如:环保的十三五规划,还有之前的大气十条,水十条,土壤十条等。

这些政策都规定了不同区域(京津冀,长三角,珠三角等)在每年要实现多少的减排目标,各项污染控制到什么范围,等。

都对未来的环境保护做了很多期望,还有一些具体措施。可以说国家和政府还是相当重视环保的。

之前有一个提案:到2030年,全国都要实现pm2.5浓度的控制,在标准以内就是35微克每立方米平均浓度。

Q9:企业会自己去监控环境吗?

A9:有些为政府提供环境监控服务的企业,会针对自身业务做一些环境方面的监控。

有些资金比较雄厚的企业,会自主的去补测一些点。前期投入一些资金为政府提供数据,但是后期可能服务就要政府买单了。

有一个问题是,如果企业自主的去布设监测点的话,环保部门会干涉。必须要求在政府的统一指挥和管理下实现监测监控。而不是一个企业就能随便做的。

不是说不让企业监控监测,而且如果监测,数据只能自己用,不能向对外随便公布。

Q10:环境研究的目的是什么?

A10:研究的主要目的是为政府决策做参考。

举个例子,某个城市现在的pm2.5浓度是这么多,我们会评估pm2.5浓度降低XX,要投入的经济成本、社会成本分别是多少,能够获得多少健康效益和社会效益。

综合评估,得出一个各方面的成本和效益达到最优化状态的数值。

Q11:环保数据一般在什么样的量级?是MB?GB?还是更大?

A11:这个要分情况了。

像pm2.5监测数据,有些小监测点3到5分钟采样一次,生成一个数值,本身很小,但是一天24小时不断采样,累积起来就多了。

还有一些环保的监控数据,视频监控分辨率越高,数据量就越大,可能会达到了GB级别。

标准化的检测站点,比如标准空气监测站点,用微众的天平或者贝塔射线的,一小时记录一个数值(每小时的pm2.5浓度,或者其他的污染物浓度等),这种数据一天24小时就24个数,不算大。

Q12:觉得企业工作和科研单位工作最大的不同之处在哪里?

A12:最大的不同是收入,肯定在企业要高一些。

在企业工作和在科研单位工作都有压力,但是压力方向不同。

在企业工作就是要为企业创造效益,要去攻克甲方,让甲方来买你的产品、服务,创造效益。

科技单位则要求研究成果,比如规定每年得发表多少文章,然后据此评职称等等。还有要每年要向国家申请项目,需要写本子,也很头疼。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黄成甲

如何提出好的问题

上世纪60年代,有个普林斯顿大学的学生,得到了一次采访爱因斯坦的机会。这可是采访世界上最智慧的科学家,这个学生花了很长时间思考该怎么提问。采访那天,他向爱因斯坦...

1324
来自专栏云社区全球资讯抢先看

2018年技术预测:五大危机还是五大机遇?

预测就像是公共巴士,要么没人来,要么就好几个人一起来。不仅如此,它们比你想的要来的慢,而且只是把你带到了路边。它们还非常热闹,充满了你早上通勤时不想听见的种种喋...

9794
来自专栏AI科技大本营的专栏

假期错过的...条AI新闻都在这里了

本期一周AI看点包括行业资讯、投融资、业界观点、技术前沿以及应用等方面。 行业 苹果悄然收购 Init.ai 公司,为 Siri 增加研发实力 Init.ai公...

3338
来自专栏大咖说

一维科技联合创始人杨立东:技术人员的考核与激励

文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:一维科技联合创始人杨立东:技术人员的考核与激励

711
来自专栏人工智能快报

五角大楼人工智能帮助情报分析人员识别恐怖事件

2017年12月22日,经过近八个月开发的算法正在帮助英特尔分析师利用战场上的无人机视频。 2017年12月初,在中东的一个秘密地点,计算机使用特殊算法帮助情报...

3705
来自专栏程序员宝库

程序员为什么要时刻保持危机感?

假期回来,第一天上班,领导找我说,你的人都划入各个事业部,管理权也都放在各事业部,于是我就成了一个光杆司令,后续未知。

811
来自专栏华章科技

高端的面试技巧:把100个面试问题变成5个

有一些专教面试的书籍会建议你把问题的答案记住并加以练习。有时候这很奏效,但很多时候HR并不按牌理出牌,某招聘网的人力资源经理表示,她经常在面试中故意打乱应聘者的...

802
来自专栏大数据文摘

谷歌的野心,详解26字母代表项目

2865
来自专栏老九学堂

【干货】大学生求职面试12个误区,千万不要再犯错

误区一 简历要精美漂亮? 很多人认为,简历就是面试者的形象,一定要精美漂亮。其实不然,如果你不是学设计的,就不用把简历搞得像彩色连环画,只要保证简历在交给面试...

2896
来自专栏机器人网

AI 20年内取代半数工作?MIT 机器人学家称太可笑

无论支持人工智能(AI)与否,科学界对 AI 取代人类工作几乎没有争议,认为只是时间早晚问题,但麻省理工学院(MIT)电脑科学和人工智能实验室,以及 Reth...

2235

扫码关注云+社区

领取腾讯云代金券