深度学习已经在气象领域显示出很好的应用前景,并且已经在降水短临预报、雷达图像生成、锋面检测等方面取得了不错的进展。为了更有效的训练和验证这些复杂的算法,需要大量多样化的高分辨率数据集。目前有很多公开的PB级天气数据,比如静止气象卫星、天气雷达等。然而,这些数据集的大小和复杂性阻碍了深度学习模型的训练。为了解决此问题,引入了雷暴事件图像数据集(Storm EVent ImagRy, SEVIR)。此数据集包含了来自多个传感器的时空一致的数据。除了数据集外,还提供了深度学习模型作为基准模型和模型评估指标,以进一步加速深度学习新算法的创新。
除了SEVIR数据集之外,文章针对两个深度学习应用(降水的短临预报和雷达图像生成)给出了模型代码,并提供了详细训练过程和结果的评估。
SEVIR数据集根据五种不同的数据类型进行采样和校准,包括GEOS-16的三个通道(C02、C09、C13)、NEXRAD的垂直液态水含量(vertically integrated liquid,对云总降水量的估计)、GEOS-16的闪电成像仪数据(Geostationary Lightning Mapper,GLM),关于变量的简单介绍见下图。此数据集共包含10000个天气事件,每个天气事件时间跨度4个小时,覆盖范围384km x 384km。
图1 五种不同类型数据简单描述
文章中给出了两个模型的应用,包括 Unet 和 cGAN,并且测试了四种不同的损失函数对模型训练结果的影响。在对模型结果的评估时采用了多个评估指标,如下:
论文中针对降水短临预报和雷达图像生成进行了详细的介绍,并给出了模型结果的评估。
下面两张图是降水短临预报的深度学习模型训练结果。
图2 不同损失函数的Unet模型的结果
MSE - Mean Squared Error, SC - Style and content loss, cGAN - Conditional GAN
图3 预报时间评估指标的变化趋势
降水的短临预报评估结果显示出,所有深度学习模型的结果都优于persistence模型,但是随着预报时间的增加,预报准确率在不断降低。
下面是雷达图像生成模型的结果:
图4 三个不同损失函数训练的雷达图像生成模型结果
关于模型框架和评估结果的详细介绍可以阅读原论文,这里不再进行过多的介绍。
在论文的最后,作者提到目前地球系统科学领域尚缺乏合适的机器学习预训练模型直接进行迁移学习,SEVIR预训练模型可以迁移到其它地区的天气预测任务。由于天气和气候数据集特别容易受到噪声和传感器校准的影响,SEVIR提供了更为整洁的数据集。
之所以要提到这一篇论文是因为,这篇文章除了提供了数据集之外,还开源了论文中所有的源代码,并且提供了非常详细的说明文档和手册。如果你是刚开始上手深度学习,或者缺乏好的数据集,那么这篇文章绝对是一个很好的“手册”。
在官方提供的手册中不仅对SEVIR数据集进行了详细的说明,而且给出了深度学习模型的详细解释以及训练步骤。
图5 SEVIR数据集的解释
图6 降水短临模型的解释
就说到这里,关于数据集的详细介绍和论文中所使用的模型框架、损失函数、评估指标以及评估结果的详细内容可以查看原论文。如果你想更快的上手深度学习在气象领域的应用,那么可以下载数据集、官方提供的手册和源代码进行尝试了。
数据集链接:https://registry.opendata.aws/sevir/
GitHub源码:https://github.com/MIT-AI-Accelerator/neurips2020-sevir
end