前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何将机器学习应用到地球科学领域

如何将机器学习应用到地球科学领域

作者头像
bugsuse
发布2022-09-23 14:38:33
5080
发布2022-09-23 14:38:33
举报
文章被收录于专栏:气象杂货铺

机器学习(Machine Learning, ML)在科学和技术领域大受欢迎,但是研究者,尤其是年轻科学家,不清楚如何利用这些方法到他们的工作中。

机器学习(ML)可以定义为“计算机在无需显示编程的情况下从数据中学习的能力”。过去十年间在技术领域大受欢迎。同时地球和空间科学(Earth and Space Science, ESS)领域也越来越多的采用ML帮助解决迫切的问题以及处理复杂的数据集。比如,从2009年到2019年,在AGU发表的涉及ML的研究数量增加了大概1倍。

ESS领域为ML的应用提供了理想的案例。因为需要处理的问题通常是非常重要的,比如气候变化、天气预报和自然灾害评估,所使用的数据集数据量大、质量高且免费。此外,开发ML所需要的计算资源的价格也在逐渐亲民。而且开源软件的发布也降低了ML的门槛。尽管如此,ESS领域对ML感兴趣的年轻科学家和学生并不知道应该如何去做。

工具选择

ML算法可认为是包含了大量参数的数学函数,可以接受输入特征,然后映射到单个/多个输出。训练ML算法包括优化参数,以准确的映射输入和输出之间关系。

在大多数ESS领域的应用,ML算法主要包括两类:监督学习无监督学习。第三类强化学习在ESS领域应用较少

监督学习需要为ML算法提供大量的输入-输出数据对,即训练集。根据任务的类型,又可以分为分类回归。比如判断给定的雷达图像中显示的对流是超级单体还是飑线则是分类,而预测雷达图像中某个位置的回波强度则可以认为是回归。

无监督学习中不需要给定目标量,算法需要从数据集中学习自然结构,而不需要提前知道自然结构是什么。

ESS领域中监督学习更常用,尽管需要大量标记的数据集,而并不总是都有现成可用的标记数据集。另一方面,无监督学习可以从数据集中发现多种结构,从而揭示那些尚未发现的类型和关系,但并不总是能够清晰的知道究竟哪些结构或类型是正确的,即哪些是真实的物理现象。

地球和空间科学应用

关于ML的书籍和课程经常会介绍这些ML算法,但具体的应用需要自己去开动大脑想象。而在实践中,如何去应用这些ML算法可能并不是那么明显,尤其是对刚接触ML的科学家而言无疑是一个巨大的障碍。

下面我们简要介绍一下目前将ML应用于ESS数据集的各种主题和方式,如下图。当然这份应用清单仅是一些个人经验,且无法囊括所有应用情况主要是希望这份清单能激励读者在他们的研究中应用ML,并催化新的和创造性的使用案例

地球和空间科学应用ML的10种思路

根据基于物理模型的涉及程度(水平方向)和代码可用/适用程度以及自定义代码程度(垂直方向)分类

模式识别和聚类

模式识别是ML算法最简单也是最强大的应用之一,在无法人工手动处理的大数据集和高维/微弱信号处理中表现非常好。例如,研究人员应用ML来检测由开普勒太空望远镜观测的数百万条光曲线组成的嘈杂数据中具有地球大小的系外行星的特征。检测到的信号可以通过聚类(一种无监督的ML形式)进一步分成几组,以确定数据集中的自然结构。

相反,非典型信号可以首先通过识别,并从典型信号中分离出来,这个过程称为异常/离群检测。这种技术很有用,例如,在粒子对撞机实验中寻找新物理信号。

时间序列和时空预测

监督ML的一个重要且广泛的应用是时间序列数据预测,即利用过去的时间序列数据训练ML模型以预测未来的值,通常还涉及额外输入。ML在ESS领域时间序列方面的另一个典型例子是天气预测,即通过观测的气温和气压数据以及其它相关量训练ML模型,然后进行预测。

然而,在许多情况下,预测数据的单一时间序列是不够的,需要了解物理系统在区域(或全球)空间尺度上的时间演变。例如,这种时空方法可以作为深度神经网络等高容量模型的时间和三维空间的函数尝试预测全球的天气。

模拟器或替代模型

传统的基于物理的模拟(比如全球气候模式)通常用来建模复杂系统,但是这些模型通常需要运行数天/数周,从而限制了实际应用。

利用ML模型可以模拟基于物理的模式或替代此类模式中计算复杂度高的模块。比如,粗分辨率的全球气候模式可能包括次网格过程,比如对流,可以利用基于机器学习的参数化来建模对流次网格过程,其结果和数值模式的结果相当,但速度要快很多。

边界或驱动条件

许多基于物理的模拟是基于一组偏微分方程通过积分求解,通常依赖于时间变化的边界条件和其它条件驱动模拟。然后,基于物理的模型在模拟时会将这些边界和驱动条件进行传播。比如,3D立方体在边界被加热,加热速率会随时间的变化。

通过训练ML模型可以学习反映物理模型内部和沿模拟边界的时变参数化,同样可以提高模拟的速度。

可解释性和知识发现

如果训练后的物理系统的时空ML模型,在大量的输入条件下都能产生准确的结果,则意味着该模型隐含了驱动该系统的所有物理过程。因此,可以利用此ML系统探索物理系统是如何工作的。一些特定算法(如随机森林)可以自动提供 "特征重要性 "的排序,让用户了解哪些输入参数对输出影响最大,从而对系统的工作原理有一个直观的认识。

一些更复杂的技术,比如层间相关传播(layerwise relevance propagation, LRP)可以更深入地了解不同特征如何相互作用,在特定的地点和时间产生特定的输出。例如,为预测ENSO的演变而训练的神经网络,主要与赤道太平洋海面温度的变化有关,它显示ENSO事件的前兆条件发生在南太平洋和印度洋。

加速反演(Accelerating Inversions)

ESS领域无处不在的挑战是将物理实体/过程的观测转化为关于实体或过程原因的基本信息,比如解释地震数据以确定岩石性质。从历史角度而言,逆问题(inverse problems)是在贝叶斯框架下求解,需要运行多次前向模型,计算代价极大,且通常并不准确。ML提供了一种替代方法来处理逆问题,要么使用模拟器来加速前向模型,要么使用有物理指导的机器学习直接发现隐藏的物理量。基于预先运行的基于物理的模型的输出可以训练ML模型用于快速反演。

创建高分辨率全球数据集

卫星观测通常提供全球观测,尽管低分辨率较低,有时是间接的有关量的测量,而局部测量则提供较小范围内这些量的更精确和直接的观测。

ML模型的一个流行且强大的用途是估计全球卫星观测和区域精确观测之间的关系,从而可以在区域测量的基础上估计全球观测。这种方法通常包括使用ML来创建超分辨率图像和其他数据产品。

不确定性量化

通常情况下,模型输出的不确定性是用单一指标来量化的,如残差的均方根(模型预测和观测之间的差异)。ML模型可以被训练来明确预测这个残差值的置信区间或内在的不确定性,这不仅可以表明在什么条件下模型预测是可信的(或可疑的),还可以用来分析模型性能。例如,如果在特定条件下,模型输出的某一位置结果有很大的误差,这可能表明某一特定的物理过程在模拟中没有得到准确表示。

物理指导神经网络

领域专家通过分析给定系统的数据,即使数据量很少,通常也能推断出系统行为。因为他们对该系统的理解和训练有素的直觉是基于物理定律的。以类似的方式,将控制物理过程和守恒量的规律和关系明确地编码到神经网络算法中,需要更少的训练数据,可以产生更准确和有物理意义的模型。

寻找和求解控制方程

在某些应用中,驱动系统的偏微分方程(PDEs)中的项或系数值是未知的,因此应该在模型中表示出来。最近开发的各种ML算法可以自动确定与现有物理观测一致的PDEs,提供了一个新的和强大的发现工具。

仍在进行的最新工作正在开发ML方法来直接求解PDEs。这些方法提供了与传统数值积分器相媲美的精度,同时可以大大加快速度,有可能允许对复杂的PDEs集合进行大规模模拟。

解决紧迫的挑战

地球和空间科学正准备进行一场革命,其核心是将现有的和迅速出现的ML技术应用于正在收集的大量且复杂的ESS数据集。这些技术具有巨大的潜力,可以帮助科学家解决我们目前面临的关于自然界的一些最紧迫的挑战和问题。我们希望上述清单能激发ML的创造性和有价值的新应用,特别是在学生和年轻科学家中,并希望它能成为一个社区资源,让ESS社区能增加更多的想法。

以上是对原文的编译,如有不妥之处敬请指正。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 气象汇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 工具选择
  • 地球和空间科学应用
    • 模式识别和聚类
      • 时间序列和时空预测
        • 模拟器或替代模型
          • 边界或驱动条件
            • 可解释性和知识发现
              • 加速反演(Accelerating Inversions)
                • 创建高分辨率全球数据集
                  • 不确定性量化
                    • 物理指导神经网络
                      • 寻找和求解控制方程
                      • 解决紧迫的挑战
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档