首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

室外空气污染空间分布预测算法的性能研究——机器学习一定比传统线性回归好么?

原文题目:Performance of prediction algorithms for modeling outdoor air pollution spatial surfaces

原文作者:Jules Kerckhoffs, Gerard Hoek, Lützen Portengen, Bert Brunekreef, and Roel C. H. Vermeulen

一作单位:Institute for Risk Assessment Sciences (IRAS), Division of Environmental Epidemiology, Utrecht University, 3584 CK Utrecht, The Netherlands

期刊名:Environmental Science & Technology

期刊月份:2019年1月

关键词:LUR模型 空间分布预测 机器学习 超细颗粒物

在室外空气污染的空间分布研究中,土地利用回归(LUR)模型将空气污染的监测浓度看作因变量,包括土地利用,道路类别,交通流量看作是一些潜在的预测变量,在不同的研究中LUR模型的结构和变量进入准则都有所差异。传统的LUR模型是一种基于多元线性回归的方法。近年来的研究表明,这种方法有一些弊端,例如只能假定变量之间是线性关系,对潜在交叉影响表达具有局限,变量之间具有较大的共线性,同时在较少的点位时有大量的预测变量时容易出现过拟合的现象,因此在该领域中出现了对机器学习方法的应用。

本研究旨在评价不同方法预测的效果,研究者关注超细颗粒物(UFP),分别利用移动测量和短期平稳测量两组数据进行建模,并且通过完全独立于训练样本的外部数据集进行验证。结果表明,基于移动测量数据建模的结果中,机器学习方法只解释了外部UFP数据的38%-47%,而传统多变量的方法,如逐步回归法和弹性网络法,解释了56%-62%。基于短期平稳测量数据建模的结果中,如随机森林的机器学习算法比多元线性回归和正则回归方法解释的变异性更大。该研究表明,算法在预测能力上的差异取决于训练数据的类型,而且这些差异通常是不太大的。

编者按

大气污染物空间分布的预测一直是学界的热点问题。随着机器学习等相关算法技术的发展,越来越多的较新的算法应用于该领域。但是不同的算法之间具有各自的优势和劣势,没有一项算法能够在所有方面都表现出色。该研究提供了一个认识:算法的挑选不能一概而论,预测能力更取决于训练数据的类型。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190124B10O6P00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券