前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >地球人工智能研究综述

地球人工智能研究综述

作者头像
郭好奇同学
发布2022-02-28 12:49:06
6740
发布2022-02-28 12:49:06
举报
文章被收录于专栏:好奇心Log好奇心Log

01

摘要

本文介绍了由NASA地球科学数据系统工作组和ESIP 机器学习集群领导的工作,以提供一个在地球科学中的人工智能应用的全面概述。它从现状、技术、用例、挑战和机遇等方面展开,为地球科学领域所有层次的人工智能从业者提供了一个整体的大局。首先它简要介绍了广泛应用的人工智能算法和计算网络基础设施,然后它分解和分析了人工智能解决地球科学问题的工作流程中的一般性步骤,最终它以面临的挑战收尾,并针对分配资源提出了指导和预警。

图1 地球人工智能概述

02

人工智能技术

2.1知识系统

知识系统是一种基于规则的方法,每个规则都描述了一些上下文知识(Clancey,1983),通常以IF/THEN表达式形式出现。例如,如果河流达到了一个行动(洪水)阶段,气象机构必须采取缓解行动,为可能发生的重大水文活动做好准备(NWS,2021)。

2.2 概率性机器学习

概率性ML可以通过学习真实的数据来进化(ghhramani,2019)。在ML中,概率推理器可以推断出给定输入数据的概率函数,并最终在控制不确定性时做出预测(Wikipedia,2021a)。

2.3无监督学习

无监督学习搜索既没有注释也没有干预的数据集中的隐藏模式(Ferranetal.,2013)。它使用如特征空间中的欧几里得距离和K均值、隐马尔可夫等算法进行聚类和自动分组。

2.4监督学习

目前大多数人工智能应用都涉及监督学习,它构建一个连接输出和输入的转换器。它有一个广泛的方法集合,包括K近邻(KNN)(Henley和Hand,1996)、决策树(DT)(Safavian and Landgrebe, 1991)、支持向量机(SVM)、随机森林(RF)(Breiman, 2001)、人工神经网络(ANN)(Gurney,2014)等。

2.5深度学习

深度学习(DL)是指一组功能强大的神经网络,它通常可以分为两个主要分支:前馈神经网络(FNN)和递归神经网络(RNN)。前者很简单,信息只向一个方向向前移动。后者的信息可以循环移动,这意味着前一步的输出应该被输入到正在进行的步骤中。

2.6强化学习

强化学习找到了一种最大化数字回馈信号的最佳方法 (Sutton and Barto, 2018)。它不同于监督和无监督学习,既不需要训练数据集,也不需要在未标记数据集合中找到隐藏的结构。重要的是,它明确地考虑了由代理与不确定的环境和无数潜在的解决方案交互的目标导向的问题。强化学习适用于无法检索所有可能的正确数据的情况。

03

现有研究

水圈研究从人工智能方法和应用中获益良多(Hu et al., 2018; Kratzert et al., 2018; Mo et al., 2019; Mohajerani et al., 2019; Naganna et al., 2019; Shen et al., 2018)。本节将详细介绍三个方面:降雨、地表水和地下水。

3.1降雨

降雨预测涉及到学习数据中复杂的非线性模式。目前降雨预测方法包括组合使用RNN和SVM或奇异谱分析。这种多模型方法扩展到ANN、KNN和径向基SVM,以预测日或月降水(Sumi et al., 2012)。其他的例子包括使用卷积LSTM(Xingjian et al., 2015),RF从光学卫星图像中检索降雨率(Kühnlein et al., 2014),以及ANN、SVM和DT的组合yuce1短期降雨(Ingsrisawang et al., 2008)。

3.2地表水

基于人工智能的方法经常被用于解决非线性水文问题(Fathian et al., 2019; Yaseen et al., 2015)。基于ML的方法,如神经元-小波混合系统,在预测水流、监测沿海水质以及发现水位与流量之间的复杂关系方面表现出类似的性能。河流研究人员使用人工神经网络、基于自适应网络的模糊预测系统和小波耦合神经网络来预测沉积物负荷和水位,并发现ML技术更有效。

3.3地下水

由于地下水难以大规模测量,因此基于人工智能的算法在获取信息和预测方面对地下水管理至关重要。ML已经成功创建了地下水管理地图(Barzegar et al., 2018),评估硝酸盐污染风险(Nolan et al., 2015; Sajedi-Hosseini et al., 2018),并预测地下水水平(Sahoo et al., 2017)。ML模型包括SVM、RF和GA优化的随机森林,可以通过位置来评估地下水的潜力(Naghibi et al., 2017)。集成的ML模型是感知地下水模式的复杂传统模型的实用替代方案。关于城市地下水网络,ML可以帮助寻找单个管道上的潜在故障,以防止未来的悲剧事件。

04

工作流程

4.1 数据准备

在大多数监督ML研究中,训练数据集包括两个组成部分:输入集和相关标签。输入是全面观察和循环数据源,如RS图像,平稳数据,模型模拟等。输出变量通常较少被观察到,但它们对理解地球系统的过程至关重要,如排放、土地覆盖、土壤湿度等。在这个过程中通常会出现几个问题:

(1)时间序列

地球观测是一个离散的数字序列(例如,样本每秒、每分钟、每小时等),其中数据间隔和时变噪声是常见的。对时间序列数据的预处理通常采用带通滤波、下采样、上采样、去趋势化、插值和平滑处理。

(2)格式

几乎每一个主要的数据提供商或专业软件都有一个唯一的自定义格式。例如,HDF是NASA的官方格式,GeoTiff是地理参考图像的流行格式。此外,每个格式都有不同的版本,这可能会导致I/O程序中的兼容性问题。可以使用GDAL/OGR和NCO这样的库解决这些问题,但不同的格式在聚合多个源数据集时仍然会产生麻烦。

(3)投影坐标系

多源数据集通常有不同的坐标系。为了整合来自同一区域的不同来源的数据,需要将数据重新投影到同一个坐标系。GDAL,Proj4,ESMF重投影工具包是解决这个问题的常见解决方案。

(4)元数据

元数据是数据采集和共享的重要组成部分。通过以全面和标准化的方式提供诸如命名约定、可变单位、分辨率、投影、观察时间、联系信息和数据文件版本等信息,可以潜在地使数据集更有效地重用。然而,如果元数据没有标准化,那么如果用户不熟悉这些数据,那么底层数据可能会被滥用(Mons 2020)。最近的一项调查表明,大多数研究人员不使用或不熟悉他们学科的元数据标准化协议(Tenopir et al., 2020)。

4.2模型建立

为地球科学中的一个特定问题建立一个合适的ML模型是很棘手的,需要大量的比较和实验。专家必须具备几种模型的专业知识,并通过比较它们的性能特征选择一个最符合目标的模型。例如,在神经网络的构建中,其大小和深度与其他超参数相互作用,改变一个变量会影响其他超参数。研究人员不应该在ML模型调优上过度纠结,因为总会有更好的模型。首先尝试简单的线性方法来创建要超越的基准。考虑不同的ML算法可能会比你最初的选择更快,更有效。

4.3 训练、测试和验证

大多数ML模型需要三个数据集:训练、验证和测试。在实践中,首先将整个数据集分割为学习数据集和测试数据集。将学习数据进一步划分为训练数据集和验证数据集。训练数据集用于拟合模型,验证数据集提供了在训练过程中对模型的实时评估,测试数据集提供了对最终模型的评价,分配这三个数据集没有固定的最优比率。为了保证模型是无偏的,将分裂重复N次,并取精度的平均值,这种方法称为N倍交叉验证。

4.4 灵敏度分析

灵敏度分析是一项用于量化ML模型不确定性的一系列方法。它研究了每个输入变量对输出的特征重要性。为了测量每个输入变量的影响,对排除所有变量的模型输出和排除一个变量或固定所有其他变量的值进行比较,只调整一个输入因素的权重,以发现模型输出如何变化。它将更多的控制权交给了从业者,特别是当新的观察结果是极端事件并且可能是超过模型预测能力的额外异常值时。

05

工具和服务

地球科学的大数据特性和人工智能算法的高复杂性需要强大的计算能力。本节概述了在地球人工智能研究方面流行的硬件和软件。

5.1计算设备

常用的ML设备包括中央处理器(CPU)、图形处理器(GPU)、现场可编辑逻辑门阵列(FPGA)、和专门的加速器(如TPU)。GPU在加快卷积和矩阵运算的计算方面占主导地位,它比CPU具有更高的内存宽带,并针对更密集的工作负载和流式内存模型进行了优化。此外,量子计算被认为是下一个潜在的重大突破,因为它能产生经典计算机在计算上难以产生的统计模式 (Biamonte et al., 2017; Deutsch, 1985; Feynman, 2018)。边缘计算是另一种方法,通过利用嵌入式人工智能技术(如传感器等)在本地处理数据而不传输大量数据,这可以减少对网络的依赖,增强人工智能的灵活性和实用性(Li et al., 2018)。

5.2 网络基础设施

操纵大规模高分辨率的地球数据集需要巨大的计算能力,超过了个人计算机甚至自建DL工作站的能力。拥有大型计算能力的私营公司已经开发了一些公共网络基础设施作为暂时的解决方案。一个典型的例子是谷歌地球引擎(GEE) (Gorelick et al., 2017),它吸收了公开可用的RS图像和模型模拟数据的拍字节级档案。它优化了谷歌的计算基础设施,以并行地处理地理空间数据。GEE利用Javascript和Python提供的基本ML算法,在基于RS的地球科学研究方面取得了许多突破,如自然资源管理、气候变化监测和灾害预测及评估等(Amani et al., 2020; Campos-Taberner et al., 2018; Tamiminia et al., 2020)。

5.3 软件

推荐的操作系统是具有主动长期技术支持的Linux派生系统。目前,Ubuntu是拥有许多内置人工智能依赖项的领头羊。为了与机器进行远程交互,强烈建议使用Jupyter服务器(Kluyver et al., 2016),它允许地球科学家创建和共享他们的实验,以简化他们的工作。

Python在人工智能领域的主导地位很大程度上归功于其繁荣、公开访问和支持协作的图书馆生态系统。表1列出了一些广泛使用的开源库。

表1 Python在地球人工智能方面的开源库

06

挑战和机遇

图2 挑战和机遇

本节重点介绍了一些主要的挑战和潜在的机遇(如图2所示)。

6.1 模型开发

模型开发是指为一个或多个训练数据集选择一个合适的模型或定制一个耦合模型的过程。模型耦合非常耗时且可能永远都不会令人满意,这就产生了对不需要专家知识或人工调优的AutoML的强烈需求。例如,OptiML使用贝叶斯参数优化来预测模型在给定数据集上的性能。但是,还有更多的问题存在:首先,用于选择模型的最佳指标应该根据不同的用例而有所不同;其次,交叉验证技术在大数据训练上表现较差;第三,精度不应该是唯一的标准,稳定性、可靠性、计算成本和普遍性都非常重要却经常被忽视。

6.2 数据准备

地球人工智能项目的大部分资金通常用于数据准备。在地球科学中获取大规模的标记数据集非常昂贵,因为标签通常是由内部人员手工完成的。一个流行的策略是使用众包来完成标记任务。标准化的训练和测试数据集在其他学科引发了人工智能革命,但捕捉地球科学数据多样性的训练数据集正在开发中。例如,Spacenet,一个提供卫星图像、算法和工具的在线中心,提供具有ML标记信息的RS数据。

随着越来越多的数据生产者、存储库和出版商接受了对FAIR数据的呼吁,社区开发的数据标准(Sansone et al., 2019)正在开发中。在地球和环境科学领域,兴起一场创建标准化和基准数据集图书馆的运动(ESIP, 2021)。这些基准数据集可以用来有效地评估新开发的算法与在一个通用的标准化数据集上的现有模型相比的性能。基准数据集的标准化可以通过为建模者提供现成的数据来减轻数据管理的负担(Reichstein et al., 2019)。

6.3 训练优化

优化器是用来改变权重和学习率等属性以降低损失的算法。常用的优化器包括梯度下降、内斯特洛甫加速梯度、自适应力矩估计等。基于梯度的优化器最常见的一个缺陷是,大多数发现的最小点都是局部最小值。当训练越深入,梯度越小,学习速度太大,无法接近正确答案,所以无法定位全局最小值。另一种方法是进化论应用于ML的遗传算法,它能将最好的模型在训练结束时保留。目前没有一种一刀切的方法可以适应任何数据集,所有的优化方法都存在缺陷。一个理想的最终解决方案应该使训练在更少的迭代步数内快速收敛到损失最小的点。梯度消失的问题(梯度太小,无法在下一个循环中更新权重)应该在往后的研究中得到很好的解决。

6.4并行计算

并行计算提高了人工智能训练和运行的效率,是地球人工智能领域一个有价值的工具。第一个原因是,由于RS技术和地球数值模拟的进步,可用于地球数据的规模不断增加。第二个原因是人工智能模型的日益复杂性,ML模型,特别是DL模型的发展,要想实现预期的精度就会变得越来越复杂。

人们已经努力从不同的角度研究如何支持并行ML(Verbraeken et al., 2020; Wang et al., 2020b)。作者在下面总结了并行ML的三个机会:第一是所有ML任务的通用机会,即开发一个结合并行超参数调优和并行深度模型训练的统一系统;第二个是支持在基于阵列的地球系统数据集上的并行学习,包括HDF和NetCDF;最后是对时空数据的并行ML支持。

6.5人工智能的可解释性

与基本的或树状结构的ML模型相比,复杂的ML模型(如DNN、SVM)不能为其结果提供一个可自圆其说的理论。可解释的人工智能(XAI)工具提供了一种研究原始“黑盒”模型的方法,其中的“解释”提供了对模型特征和预测之间关系的定性理解。选择XAI方法的决定性因素可能包括对模型不可知或特定于模型方法的需要,需要解释的程度,以及时空或计算约束。目前XAI方法的局限性在于它们不能分辨训练数据集中的问题,它们专注于RGB图像,对高维图像用户友好(Krishnan, 2019)。

6.6 泛化策略

传统的泛化目标是使训练好的人工智能模型在测试数据上表现得更好。然而在地球人工智能中,它不再是简单地在过拟合和欠拟合之间找到一个平衡点:一次在一个地方训练的模型可能在另一个时间不适用于另一个地方。目前的经验训练模型不能很好地推广到具有不同分布的新样本上。因此,找到一个良好地泛化策略,使模型适合于训练数据集之外,是人工智能在地球科学中应用的一个主要瓶颈。

奥卡姆剃刀原理(Ariew, 1976)证明了一个模型越不复杂,一个好的经验结果就越有可能不仅仅是由于所选样本的特性。训练样本欠学习和过度学习之间的边缘是模糊的。检测欠拟合和过拟合的经典方法之一是将样本分为训练子集和测试子集两部分。在训练的每次迭代中,程序将在测试子集上运行训练模型,以计算在原始训练集之外的样本的预测精度。如果测试数据开始下降,则意味着模型存在过拟合,反之则是欠拟合。寻找这两者之间平衡的常见方法是交叉验证,以确保训练偏差没有巧合。正则化是另一种使学习算法更好地推广的方法。它侧重于减少噪声样本的影响,它不反映数据集的真实特征,而是随机误差和巧合,它不鼓励训练一个更复杂的模型来减少泛化不良的风险。然而,没有任何方法可以避免密集的无限调优来优化模型以更好地泛化。

人工模型的一个吸引人的特点是,当模型输入更大的数据集时,模型的性能将会提高。然而,它终将达到模型学习能力所造成的一些极限。许多DL模型都是过度参数化的,在学习了更多的噪声样本后可能会变得有偏差。解决泛化问题将使地球系统的人工智能模型在长期运行中更加稳定和抗噪声。未来的解决方案是运行一种自动算法,通过判断样本的质量来进行自调整,即减少那些可能使模型不稳定的样本对模型的影响。

6.7不确定性

ML应用程序的不确定性来自于两个来源的不确定性组合:数据和知识。与真实数据的固有噪声相关的不确定性被称为任意不确定性,这不是由模型引起的,而是不可约的(Hüllermeier and Waegeman, 2021)。知识和数据不足造成的不确定性称为认知不确定性,这通常是模型训练和预测中数据不匹配的结果。

为了量化不确定性,需要估计ML模型中所有输入数据的不确定性,并了解不确定性是如何通过模型传播的。认知上的不确定性与泛化的问题有关。大多数ML应用程序都是基于特定的数据集开发的,因此该模型可能不容易推广到原始数据集中没有覆盖的其他条件。由于在原始数据集中缺乏表示,要准确地量化与泛化相关的不确定性是非常具有挑战性的。

准确的不确定性量化对于提高用户的信任度和提高ML应用程序的可用性至关重要。为了解决不确定性量化(UQ),许多统计和计算方法已经被提出。最常见的方法可以分为两类:贝叶斯UQ和集成UQ。贝叶斯UQ方法侧重于逼近给定训练数据集的后验概率分布(Abdar et al., 2021)。集成UQ意味着训练多个模型,计算它们的综合预测(例如平均值),并使用偏差测量不确定性。

6.8与物理模型的融合

基于已知物理定律的模型驱动解决方案长期以来一直是应用科学的主要趋势。数值模型在地球系统科学中起着主导作用。然而,开发有效和准确的模型仍然存在困难。与传统的基于物理的地球科学模型需要高触发器和大量的CPU核心不同,ML,特别是DL,可以通过简单地使用GPU,或像TPU这样的自定义处理单元来并行化处理,以实现与大量CPU堆栈相同的效果。目前解决这一问题主要两个趋势:一个是在传统建模框架中部分使用人工智能或AI平台;另一个是将物理定律纳入基于ML的方法,以提高数据驱动模型的可解释性。基于物理信息的ML模型(Kashinath et al., 2021)的出现强调了推进尖端算法的重要性。

6.9起源、可再现性、可复制性、可重用性

地球人工智能研究四个广泛和相互关联的问题包括:

(1) 起源:训练数据、人工智能模型、软件和硬件从哪里来,在报告研究结果之前,这些数据经历了什么变化?

(2) 可再现性:一个独立的单位能否使用相同的数据和算法,复制精确的人工智能工作流程和报告的结果?

(3) 可复制性:一个独立的单位是否可以对相似的数据进行类似的ML分析,并得出相同的结论?

(4) 可重用性:训练过的人工智能模型能否轻松地应用于新数据或其他新情况?

随着地球科学领域的研究人员越来越多地接受开放数据和管理工作流平台,这四个问题受到了越来越多的关注。起源对于地球人工智能模型被公众理解是至关重要的,而人工智能的标准化来源框架将是解决这个问题的理想解决方案。可重用性的另一个挑战是确保用于训练和评估算法的数据是公开访问的(Neylon, 2012; Tenopir et al., 2020)。作为迈向开放数据的一步,研究人员将他们的数据归档在一个长期的存储库中(Duerr et al., 2018)。

6.10全堆栈工作流自动化

人工智能涉及许多技术、算法、工具和库,手动管理所有的部分是不现实的。然而,地球人工智能工作流的全堆栈自动化仍在开发中。MLOps是将实验性ML模型部署到生产web系统中的过程。它管理生产级ML模型的部署、监控和管理。开源软件开发人员将有很多机会来承担这项任务。NASA地球社区正在进行的项目,如Geoweaver(Sun et al., 2020)已经意识到这一挑战,并正在努力提供实际稳定的软件作为解决方案。

6.11人工智能伦理

地球人工智能在以一个强大的力量保护我们,预测地球的未来,并提前导航自然灾害和资源,以拯救人类和保护环境。然而,力量是有限的,它不能平等地拯救每个人。它虽然智能,但仍然是一个没有生命的系统,它不是一个法律实体,但是它的决定影响着社会,并在一定程度上有着自我意志。

我们可以很快预见到许多关于地球人工智能伦理的法规和法律。在这里,作者概述了在地球和环境科学中走向更有道德的人工智能的许多路径,其中包括更多的开放数据集和无偏的算法。工程师应该通过与社会科学家、伦理学家和哲学家合作,发展与地球人工智能伦理相关的逻辑,共同研究人工智能在警务、法律、金融领域的社会影响。这包括为ML研究人员制定一个指导方针,使它不仅是一个哲学项目,而且是一个实用的项目。

6.12运行管理

实施人工智能服务不能简单地由一个科学家或一个小型地球研究小组来实现。人工智能产品在部署后需要维护人员和客户服务。一个大公司可以产生大量的业务和日志数据。人工智能操作的过渡和维持由于技术发展的快速步伐而变得复杂。然而,DevOps实践强调开发人员和操作之间的密切协调,可以减轻这些困难。另一种潜在有效的技术是内部能力建设,例如培训运营人员掌握正在使用的人工智能的基础知识,以便他们能够更好地识别问题并为客户提供支持。

07

总结

本文以地球科学的应用为重点,综述了人工智能研究的前沿技术和进展。地球人工智能理论和基础设施的突破将把地球科学带入下一个阶段:地球人工智能。地球科学界必须跟上观测数据集爆炸式的速度,并以可以承受的成本快速建立可用的人工智能模型。地球人工智能的研究和开发仍处于起步阶段,从学术界到政府和工业界的所有部门都将获得大量机会。地球人工智能的未来是光明的,它将推动我们的文明进入下一个史诗阶段,并将地球转变为一个更可持续、更健康的星球。

08

参考文献

[1]Abdar, M., Pourpanah, F., Hussain, S., Rezazadegan, D., Liu, L., Ghavamzadeh, M., Fieguth, P., Cao, X., Khosravi, A., Acharya, U.R., 2021. A review of uncertainty quantification in deep learning: Techniques, applications and challenges. Information Fusion

[2]Abdul-Wahab, S.A., Al-Alawi, S.M., 2002. Assessment and prediction of tropospheric ozone concentration levels using artificial neural networks. Environmental Modelling & Software 17, 219-228.

[3] Adeli, H., Panakkat, A., 2009. A probabilistic neural network for earthquake magnitude prediction. Neural networks 22, 1018-1024.

文案\张伟

排版\张伟

校核\石晶

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 好奇心Log 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档