首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nature子刊!WxC-Bench:气象AI领域的"瑞士军刀"——多模态天气气候基准数据集

Nature子刊!WxC-Bench:气象AI领域的"瑞士军刀"——多模态天气气候基准数据集

作者头像
气象学家
发布2026-03-26 11:07:16
发布2026-03-26 11:07:16
1320
举报
文章被收录于专栏:气象学家气象学家

WxC-Bench:气象AI领域的"瑞士军刀"——多模态天气气候基准数据集

Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data (2026). https://doi.org/10.1038/s41597-026-06839-7
Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data (2026). https://doi.org/10.1038/s41597-026-06839-7

Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data (2026). https://doi.org/10.1038/s41597-026-06839-7

开源代码

代码语言:javascript
复制
https://github.com/NASA-IMPACT/WxC-Bench

https://pypi.org/project/wxcbench/

开篇:为什么我们需要WxC-Bench?

在人工智能席卷全球各领域的今天,气象科学正经历着从传统数值模式向数据驱动范式的深刻变革。从FourCastNet到GraphCast,从盘古到Aurora,一系列AI气象模型展现出惊人的预报能力。然而,一个尴尬的现实是:这些模型大多专注于中期天气预报(3-5天),且只针对单一任务优化,如同"一把钥匙开一把锁"。

更深层的问题在于数据孤岛——现有的气象数据集如WeatherBench、ClimateNet、ClimSim等,虽然质量上乘,但各自为政,覆盖的时空尺度和数据模态单一。这严重制约了通用型气象基础模型(Foundation Models)的发展,也阻碍了研究人员系统评估AI模型在真实大气过程中的迁移学习能力。

正是在这样的背景下,NASA与阿拉巴马大学亨茨维尔分校等机构联合推出了WxC-Bench(Weather and Climate Benchmark)。这不仅仅是一个数据集,更是一座连接微观湍流与全球环流、连接数值模拟与自然语言、连接科研与业务的桥梁。


数据集架构:六大任务全景扫描

WxC-Bench的核心创新在于其多尺度、多模态的设计理念。它精心策划了六个覆盖不同大气过程的关键下游任务,从微尺度(20公里)到天气尺度(2500公里),从图像分类到文本生成,构建了一个全方位评估AI气象能力的"试金石"。

任务一:航空湍流智能识别——守护万米高空的安全

科学背景:航空湍流是飞行安全的隐形杀手,特别是晴空湍流难以被雷达探测。传统数值模式受限于分辨率(通常大于1公里),无法直接解析这种微尺度现象,必须依赖飞行员报告(PIREPs)进行统计预报。

数据构建

  • 输入:MERRA-2再分析数据(0.625°×0.5°分辨率),包含温度、湿度、纬向/经向风、垂直运动、地形和位势高度等变量,覆盖地表至100hPa的40个气压层
  • 标签:2003-2023年间美国本土(CONUS)的飞行员报告,按高度分为三层:低空(0-15,000英尺,行星边界层)、中空(15,000-30,000英尺,自由大气)、高空(>30,000英尺,对流层顶附近)
  • 处理:将"中度及以上"湍流报告按日网格化,若某网格单元内湍流报告占比超过25%,则标记为"湍流日"

技术挑战:这是一个典型的类别不平衡问题——非湍流样本占90%以上,而湍流样本仅占8-10%。基线实验采用5层ANN(100-60-60-40-20神经元),使用类别加权损失函数,最终获得约80%的整体准确率,但检测概率(PoD)仅38-56%,反映了该任务的实际难度。

任务二:重力波动量通量参数化——破解次网格尺度谜题

科学意义:大气重力波(GWs)是连接对流层与平流层的关键动力过程,对平流层极涡崩溃、准两年振荡(QBO)等具有决定性影响。然而,气候模式由于分辨率限制(通常2-3度),必须对重力波进行参数化,而传统单柱方案忽略了水平传播,导致"冷极偏差"等系统性误差。

数据创新

  • 来源:ERA5再分析数据(0.25°分辨率,137层),利用Helmholtz分解将水平风场分离为旋转分量(平衡流)和散度分量(重力波)
  • 构建策略:将高分辨率ERA5数据保守粗化至2.8°×2.8°(64×128网格)作为输入,但保留解析的重力波动量通量(u'ω', v'ω')作为标签
  • 归一化:对风场使用3σ标准化(范围[-2,2]),对通量采用立方根变换以处理其拉普拉斯分布(高度间歇性)

学术价值:该数据集首次提供了全球、多年、逐小时的次网格动量通量演化记录,为开发非局地(non-local)神经网络参数化方案提供了可能。基线实验使用Attention-Unet,成功学习到落基山脉、安第斯山脉等关键热点区域的动量通量分布,R²在中纬度可达0.6。

任务三:天气相似性智能检索——历史相似预报的AI升级

应用价值:"历史会重演"是气象预报的古老智慧。通过寻找当前天气形势的历史相似案例(Analogs),预报员可以推断未来演变,或构建集合预报的初始条件。传统方法依赖傅里叶变换或小波指纹,计算效率低下。

数据设计

  • 空间策略:将全球MERRA-2数据划分为约1800公里边长的子网格(623个子域),既保留足够的中尺度信息,又确保历史库中有充足的相似样本
  • 重叠处理:相邻子网格在西部和南部边缘重叠10个格点,避免目标点位于边界时的边缘效应
  • 检索维度:支持单参数(如海平面气压或2米温度)或多参数联合检索

技术路线:采用卷积自编码器(CAE)架构,将天气图编码为低维潜向量,通过余弦相似度进行快速向量检索。验证显示,模型能准确检索出具有相似天气形势的历史案例(SSIM > 0.5)。

任务四:次季节降水预报——穿越"可预报性荒漠"

科学难点:2周至2个月的次季节至季节(S2S)预报被称为"可预报性荒漠"(Predictability Desert)。传统NWP模式在10天后技巧迅速衰减至气候态水平,而气候模式在此时间尺度上尚显粗糙。

数据独特性

  • 多源卫星融合:整合三类观测——静止卫星红外/可见光(GridSat-B1)、极轨卫星AVHRR/HIRS(PATMOS-x)、微波辐射计(SSM/I, AMSR2)
  • 长时序:1983-2024年,覆盖近40年,涵盖ENSO等多个气候模态
  • 降水标签:2000年前使用PERSIANN-CDR(纯红外),2000年后使用IMERG(微波+红外融合),统一插值至0.625°×0.5°网格

基线模型:构建了一个复杂的卷积自回归模型,包含空间编码器(ResNeXt块)、时间编码器、传播器(Propagator)和解码器。模型预测降水分布的32个分位数,采用分位数损失函数训练。结果显示,在10天以后,机器学习模型的相关系数开始超过ECMWF和UKMO的传统S2S预报。

任务五:飓风路径与强度预测——守护生命线的AI哨兵

数据规模:整合1980-2024年全球七大洋盆(北大西洋、东北太平洋、西北太平洋、北印度洋、南印度洋、澳大利亚区域、南太平洋)的4,500个命名热带气旋,包括热带低压(TD)、热带风暴(TS)和1-5级飓风。

关键统计

  • • 西北太平洋最活跃(年均29.3个,占全球30%)
  • • 约40%维持热带风暴强度,25%达到强飓风(Cat 3-5)
  • • 2017年全球共95个命名风暴,西部太平洋占33个

验证方案:使用FourCastNet(结合傅里叶神经算子与ViT架构)进行预报。以2018年飓风迈克尔为例,模型对海平面气压(SLP)的预报与实况相关性在2天达0.97,3天0.82,但5天降至0.3。路径误差控制在40-50公里,强度误差约50-60 hPa,显示出在短中期预报中的实用价值。

任务六:自然语言天气预报生成——让AI成为气象主播

跨模态挑战:这是WxC-Bench中最具创新性的任务——将气象场(图像)转化为人类可读的预报文本(自然语言)。相比传统的规则生成系统(如FOG),深度学习模型能从数据中学习词汇模式和语义关联。

数据构造

  • 输入:HRRR(高分辨率快速更新)模式输出的气象要素场(2米温度、湿度、风场、云量、降水概率等)
  • 标签:美国国家海洋大气管理局(NOAA)风暴预测中心(SPC)的历史天气讨论文本(2014-2017年,共1,249份)
  • 预处理:去除标点、扩展缩写(如don't→do not)、统一小写、去除停用词和数字

模型架构:采用Vision Transformer(ViT)作为图像编码器,GPT-2作为文本解码器的编码器-解码器框架。基线实验ROUGE-L得分达0.42,处于图像描述任务的合理区间。模型成功识别出"severe thunderstorms"(强雷暴)、"damaging winds"(破坏性大风)、"southern Plains"(南部平原)等关键气象词汇和地理信息。


技术验证: baseline实验揭示的挑战与机遇

各任务的基线实验不仅验证了数据的"机器学习就绪性"(ML-ready),更揭示了不同大气过程对AI模型的独特挑战:

任务

基线模型

关键发现

航空湍流

5层ANN

类别极度不平衡(9:1),F1分数仅17-31%,需发展专门的代价敏感学习或采样策略

重力波参数化

Attention-Unet

中纬度地形波预报技巧(R²=0.6)显著高于热带对流波(R²=0.3),提示区域特异性物理机制的重要性

天气相似搜索

卷积自编码器

结构相似性指数(SSIM)能有效衡量天气形势相似度,但多参数联合检索仍需探索

次季节降水

卷积自回归

10天后ML技巧超越传统NWP,但空间谱分析显示随预报时长增加,高频信号衰减严重(过度平滑)

飓风预报

FourCastNet

路径预报(RMSE<50km)远优于强度预报(误差50-60hPa),符合"强度预报是热带气旋研究最后前沿"的学界共识

自然语言生成

ViT+GPT-2

成功捕捉极端天气事件和地理实体,但长文本一致性和数值准确性仍需提升


数据获取与生态建设

WxC-Bench已全面开源,体现了现代地球科学数据共享的精神:

  • 主仓库:Hugging Face (nasa-impact/WxC-Bench),提供各任务子目录(.nc, .h5, .zip, .grib2格式)
  • 代码库:GitHub (NASA-IMPACT/WxC-Bench),包含数据预处理、基线模型和评估脚本
  • Python包:PyPI (wxcbench),提供程序化访问接口,支持快速数据加载和预处理

这种"数据+代码+工具包"三位一体的发布模式,极大降低了研究门槛,有助于构建围绕WxC-Bench的学术生态。


未来展望:通向通用气象AI的必由之路

WxC-Bench的发布标志着气象AI从"单点突破"向"系统评估"的重要转变。其长远价值体现在:

  1. 1. 基础模型评估平台:为Prithvi WxC、ClimaX、Aurora等新兴气象基础模型提供标准化的"体检报告",测试其跨任务迁移学习能力
  2. 2. 物理约束AI的试验场:重力波参数化任务特别适用于测试"物理约束神经网络"——让AI在数据驱动的同时遵守质量、动量守恒等物理定律
  3. 3. 多模态融合前沿:自然语言生成任务开辟了气象视觉-语言模型(Vision-Language Models)的新赛道,未来可能实现"以文搜图"(通过描述检索历史相似天气)或"以图生文"(自动化预报产品生成)
  4. 4. 业务应用桥梁:航空湍流和飓风数据集具有直接业务应用价值,可加速AI技术从实验室到机场和防灾指挥部的转化

局限性与改进方向

  • • 当前数据集主要基于再分析资料和卫星反演,未来可融入更多非常规观测(如飞机探测、无人机、物联网传感器)
  • • 自然语言任务的数据量(1,249条)相对有限,扩展至多语言(中文、日文等)和非结构化社交媒体数据将提升实用性
  • • 各任务间目前独立,未来可探索多任务联合训练(如同时优化湍流检测和重力波参数化)对模型泛化能力的影响

结语

WxC-Bench不仅是一个数据集,更是气象AI时代的"基础设施"。它如同一面多棱镜,让研究人员得以从不同角度审视AI模型对大气复杂性的理解能力。从微尺度的湍流涡旋到行星尺度的季风环流,从二进制分类到诗意的自然语言描述,WxC-Bench正在搭建一座连接数据科学与大气科学的宏伟桥梁。

随着更多研究者加入这一平台,我们有理由期待:未来的气象AI模型将不再只是"预报员",而是能够理解物理机制、解释预报理由、适应多源数据的"数字大气科学家"。这或许正是WxC-Bench留给气象学界最宝贵的遗产——不仅提供了答案,更提出了正确的问题

延伸阅读

  • • 数据集地址:https://huggingface.co/datasets/nasa-impact/WxC-Bench
  • • 代码仓库:https://github.com/NASA-IMPACT/WxC-Bench
  • • 相关基础模型:Prithvi WxC (IBM/NASA), ClimaX (Microsoft), Aurora (Microsoft)

END

声明:欢迎转载、转发。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及内容、版权和其他问题,请联系小编处理

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 气象学家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • WxC-Bench:气象AI领域的"瑞士军刀"——多模态天气气候基准数据集
    • 开源代码
    • 开篇:为什么我们需要WxC-Bench?
    • 数据集架构:六大任务全景扫描
    • 数据获取与生态建设
    • 未来展望:通向通用气象AI的必由之路
    • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档