Nature子刊！WxC-Bench：气象AI领域的"瑞士军刀"——多模态天气气候基准数据集

气象学家

发布于 2026-03-26 11:07:16

3890

WxC-Bench：气象AI领域的"瑞士军刀"——多模态天气气候基准数据集

Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data (2026). https://doi.org/10.1038/s41597-026-06839-7

开源代码

https://github.com/NASA-IMPACT/WxC-Bench

https://pypi.org/project/wxcbench/

开篇：为什么我们需要WxC-Bench？

在人工智能席卷全球各领域的今天，气象科学正经历着从传统数值模式向数据驱动范式的深刻变革。从FourCastNet到GraphCast，从盘古到Aurora，一系列AI气象模型展现出惊人的预报能力。然而，一个尴尬的现实是：这些模型大多专注于中期天气预报（3-5天），且只针对单一任务优化，如同"一把钥匙开一把锁"。

更深层的问题在于数据孤岛——现有的气象数据集如WeatherBench、ClimateNet、ClimSim等，虽然质量上乘，但各自为政，覆盖的时空尺度和数据模态单一。这严重制约了通用型气象基础模型（Foundation Models）的发展，也阻碍了研究人员系统评估AI模型在真实大气过程中的迁移学习能力。

正是在这样的背景下，NASA与阿拉巴马大学亨茨维尔分校等机构联合推出了WxC-Bench（Weather and Climate Benchmark）。这不仅仅是一个数据集，更是一座连接微观湍流与全球环流、连接数值模拟与自然语言、连接科研与业务的桥梁。

数据集架构：六大任务全景扫描

WxC-Bench的核心创新在于其多尺度、多模态的设计理念。它精心策划了六个覆盖不同大气过程的关键下游任务，从微尺度（20公里）到天气尺度（2500公里），从图像分类到文本生成，构建了一个全方位评估AI气象能力的"试金石"。

任务一：航空湍流智能识别——守护万米高空的安全

科学背景：航空湍流是飞行安全的隐形杀手，特别是晴空湍流难以被雷达探测。传统数值模式受限于分辨率（通常大于1公里），无法直接解析这种微尺度现象，必须依赖飞行员报告（PIREPs）进行统计预报。

数据构建：

• 输入：MERRA-2再分析数据（0.625°×0.5°分辨率），包含温度、湿度、纬向/经向风、垂直运动、地形和位势高度等变量，覆盖地表至100hPa的40个气压层
• 标签：2003-2023年间美国本土（CONUS）的飞行员报告，按高度分为三层：低空（0-15,000英尺，行星边界层）、中空（15,000-30,000英尺，自由大气）、高空（>30,000英尺，对流层顶附近）
• 处理：将"中度及以上"湍流报告按日网格化，若某网格单元内湍流报告占比超过25%，则标记为"湍流日"

技术挑战：这是一个典型的类别不平衡问题——非湍流样本占90%以上，而湍流样本仅占8-10%。基线实验采用5层ANN（100-60-60-40-20神经元），使用类别加权损失函数，最终获得约80%的整体准确率，但检测概率（PoD）仅38-56%，反映了该任务的实际难度。

任务二：重力波动量通量参数化——破解次网格尺度谜题

科学意义：大气重力波（GWs）是连接对流层与平流层的关键动力过程，对平流层极涡崩溃、准两年振荡（QBO）等具有决定性影响。然而，气候模式由于分辨率限制（通常2-3度），必须对重力波进行参数化，而传统单柱方案忽略了水平传播，导致"冷极偏差"等系统性误差。

数据创新：

• 来源：ERA5再分析数据（0.25°分辨率，137层），利用Helmholtz分解将水平风场分离为旋转分量（平衡流）和散度分量（重力波）
• 构建策略：将高分辨率ERA5数据保守粗化至2.8°×2.8°（64×128网格）作为输入，但保留解析的重力波动量通量（u'ω', v'ω'）作为标签
• 归一化：对风场使用3σ标准化（范围[-2,2]），对通量采用立方根变换以处理其拉普拉斯分布（高度间歇性）

学术价值：该数据集首次提供了全球、多年、逐小时的次网格动量通量演化记录，为开发非局地（non-local）神经网络参数化方案提供了可能。基线实验使用Attention-Unet，成功学习到落基山脉、安第斯山脉等关键热点区域的动量通量分布，R²在中纬度可达0.6。

任务三：天气相似性智能检索——历史相似预报的AI升级

应用价值："历史会重演"是气象预报的古老智慧。通过寻找当前天气形势的历史相似案例（Analogs），预报员可以推断未来演变，或构建集合预报的初始条件。传统方法依赖傅里叶变换或小波指纹，计算效率低下。

数据设计：

• 空间策略：将全球MERRA-2数据划分为约1800公里边长的子网格（623个子域），既保留足够的中尺度信息，又确保历史库中有充足的相似样本
• 重叠处理：相邻子网格在西部和南部边缘重叠10个格点，避免目标点位于边界时的边缘效应
• 检索维度：支持单参数（如海平面气压或2米温度）或多参数联合检索

技术路线：采用卷积自编码器（CAE）架构，将天气图编码为低维潜向量，通过余弦相似度进行快速向量检索。验证显示，模型能准确检索出具有相似天气形势的历史案例（SSIM > 0.5）。

任务四：次季节降水预报——穿越"可预报性荒漠"

科学难点：2周至2个月的次季节至季节（S2S）预报被称为"可预报性荒漠"（Predictability Desert）。传统NWP模式在10天后技巧迅速衰减至气候态水平，而气候模式在此时间尺度上尚显粗糙。

数据独特性：

• 多源卫星融合：整合三类观测——静止卫星红外/可见光（GridSat-B1）、极轨卫星AVHRR/HIRS（PATMOS-x）、微波辐射计（SSM/I, AMSR2）
• 长时序：1983-2024年，覆盖近40年，涵盖ENSO等多个气候模态
• 降水标签：2000年前使用PERSIANN-CDR（纯红外），2000年后使用IMERG（微波+红外融合），统一插值至0.625°×0.5°网格

基线模型：构建了一个复杂的卷积自回归模型，包含空间编码器（ResNeXt块）、时间编码器、传播器（Propagator）和解码器。模型预测降水分布的32个分位数，采用分位数损失函数训练。结果显示，在10天以后，机器学习模型的相关系数开始超过ECMWF和UKMO的传统S2S预报。

任务五：飓风路径与强度预测——守护生命线的AI哨兵

数据规模：整合1980-2024年全球七大洋盆（北大西洋、东北太平洋、西北太平洋、北印度洋、南印度洋、澳大利亚区域、南太平洋）的4,500个命名热带气旋，包括热带低压（TD）、热带风暴（TS）和1-5级飓风。

关键统计：

• 西北太平洋最活跃（年均29.3个，占全球30%）
• 约40%维持热带风暴强度，25%达到强飓风（Cat 3-5）
• 2017年全球共95个命名风暴，西部太平洋占33个

验证方案：使用FourCastNet（结合傅里叶神经算子与ViT架构）进行预报。以2018年飓风迈克尔为例，模型对海平面气压（SLP）的预报与实况相关性在2天达0.97，3天0.82，但5天降至0.3。路径误差控制在40-50公里，强度误差约50-60 hPa，显示出在短中期预报中的实用价值。

任务六：自然语言天气预报生成——让AI成为气象主播

跨模态挑战：这是WxC-Bench中最具创新性的任务——将气象场（图像）转化为人类可读的预报文本（自然语言）。相比传统的规则生成系统（如FOG），深度学习模型能从数据中学习词汇模式和语义关联。

数据构造：

• 输入：HRRR（高分辨率快速更新）模式输出的气象要素场（2米温度、湿度、风场、云量、降水概率等）
• 标签：美国国家海洋大气管理局（NOAA）风暴预测中心（SPC）的历史天气讨论文本（2014-2017年，共1,249份）
• 预处理：去除标点、扩展缩写（如don't→do not）、统一小写、去除停用词和数字

模型架构：采用Vision Transformer（ViT）作为图像编码器，GPT-2作为文本解码器的编码器-解码器框架。基线实验ROUGE-L得分达0.42，处于图像描述任务的合理区间。模型成功识别出"severe thunderstorms"（强雷暴）、"damaging winds"（破坏性大风）、"southern Plains"（南部平原）等关键气象词汇和地理信息。

技术验证： baseline实验揭示的挑战与机遇

各任务的基线实验不仅验证了数据的"机器学习就绪性"（ML-ready），更揭示了不同大气过程对AI模型的独特挑战：

任务	基线模型	关键发现
航空湍流	5层ANN	类别极度不平衡（9:1），F1分数仅17-31%，需发展专门的代价敏感学习或采样策略
重力波参数化	Attention-Unet	中纬度地形波预报技巧（R²=0.6）显著高于热带对流波（R²=0.3），提示区域特异性物理机制的重要性
天气相似搜索	卷积自编码器	结构相似性指数（SSIM）能有效衡量天气形势相似度，但多参数联合检索仍需探索
次季节降水	卷积自回归	10天后ML技巧超越传统NWP，但空间谱分析显示随预报时长增加，高频信号衰减严重（过度平滑）
飓风预报	FourCastNet	路径预报（RMSE<50km）远优于强度预报（误差50-60hPa），符合"强度预报是热带气旋研究最后前沿"的学界共识
自然语言生成	ViT+GPT-2	成功捕捉极端天气事件和地理实体，但长文本一致性和数值准确性仍需提升

数据获取与生态建设

WxC-Bench已全面开源，体现了现代地球科学数据共享的精神：

• 主仓库：Hugging Face (nasa-impact/WxC-Bench)，提供各任务子目录（.nc, .h5, .zip, .grib2格式）
• 代码库：GitHub (NASA-IMPACT/WxC-Bench)，包含数据预处理、基线模型和评估脚本
• Python包：PyPI (wxcbench)，提供程序化访问接口，支持快速数据加载和预处理

这种"数据+代码+工具包"三位一体的发布模式，极大降低了研究门槛，有助于构建围绕WxC-Bench的学术生态。

未来展望：通向通用气象AI的必由之路

WxC-Bench的发布标志着气象AI从"单点突破"向"系统评估"的重要转变。其长远价值体现在：

1. 基础模型评估平台：为Prithvi WxC、ClimaX、Aurora等新兴气象基础模型提供标准化的"体检报告"，测试其跨任务迁移学习能力
2. 物理约束AI的试验场：重力波参数化任务特别适用于测试"物理约束神经网络"——让AI在数据驱动的同时遵守质量、动量守恒等物理定律
3. 多模态融合前沿：自然语言生成任务开辟了气象视觉-语言模型（Vision-Language Models）的新赛道，未来可能实现"以文搜图"（通过描述检索历史相似天气）或"以图生文"（自动化预报产品生成）
4. 业务应用桥梁：航空湍流和飓风数据集具有直接业务应用价值，可加速AI技术从实验室到机场和防灾指挥部的转化

局限性与改进方向：