
Shinde, R., Ankur, K., Phillips, C.E. et al. WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks. Sci Data (2026). https://doi.org/10.1038/s41597-026-06839-7

https://github.com/NASA-IMPACT/WxC-Bench
https://pypi.org/project/wxcbench/在人工智能席卷全球各领域的今天,气象科学正经历着从传统数值模式向数据驱动范式的深刻变革。从FourCastNet到GraphCast,从盘古到Aurora,一系列AI气象模型展现出惊人的预报能力。然而,一个尴尬的现实是:这些模型大多专注于中期天气预报(3-5天),且只针对单一任务优化,如同"一把钥匙开一把锁"。
更深层的问题在于数据孤岛——现有的气象数据集如WeatherBench、ClimateNet、ClimSim等,虽然质量上乘,但各自为政,覆盖的时空尺度和数据模态单一。这严重制约了通用型气象基础模型(Foundation Models)的发展,也阻碍了研究人员系统评估AI模型在真实大气过程中的迁移学习能力。
正是在这样的背景下,NASA与阿拉巴马大学亨茨维尔分校等机构联合推出了WxC-Bench(Weather and Climate Benchmark)。这不仅仅是一个数据集,更是一座连接微观湍流与全球环流、连接数值模拟与自然语言、连接科研与业务的桥梁。
WxC-Bench的核心创新在于其多尺度、多模态的设计理念。它精心策划了六个覆盖不同大气过程的关键下游任务,从微尺度(20公里)到天气尺度(2500公里),从图像分类到文本生成,构建了一个全方位评估AI气象能力的"试金石"。
科学背景:航空湍流是飞行安全的隐形杀手,特别是晴空湍流难以被雷达探测。传统数值模式受限于分辨率(通常大于1公里),无法直接解析这种微尺度现象,必须依赖飞行员报告(PIREPs)进行统计预报。
数据构建:
技术挑战:这是一个典型的类别不平衡问题——非湍流样本占90%以上,而湍流样本仅占8-10%。基线实验采用5层ANN(100-60-60-40-20神经元),使用类别加权损失函数,最终获得约80%的整体准确率,但检测概率(PoD)仅38-56%,反映了该任务的实际难度。
科学意义:大气重力波(GWs)是连接对流层与平流层的关键动力过程,对平流层极涡崩溃、准两年振荡(QBO)等具有决定性影响。然而,气候模式由于分辨率限制(通常2-3度),必须对重力波进行参数化,而传统单柱方案忽略了水平传播,导致"冷极偏差"等系统性误差。
数据创新:
学术价值:该数据集首次提供了全球、多年、逐小时的次网格动量通量演化记录,为开发非局地(non-local)神经网络参数化方案提供了可能。基线实验使用Attention-Unet,成功学习到落基山脉、安第斯山脉等关键热点区域的动量通量分布,R²在中纬度可达0.6。
应用价值:"历史会重演"是气象预报的古老智慧。通过寻找当前天气形势的历史相似案例(Analogs),预报员可以推断未来演变,或构建集合预报的初始条件。传统方法依赖傅里叶变换或小波指纹,计算效率低下。
数据设计:
技术路线:采用卷积自编码器(CAE)架构,将天气图编码为低维潜向量,通过余弦相似度进行快速向量检索。验证显示,模型能准确检索出具有相似天气形势的历史案例(SSIM > 0.5)。
科学难点:2周至2个月的次季节至季节(S2S)预报被称为"可预报性荒漠"(Predictability Desert)。传统NWP模式在10天后技巧迅速衰减至气候态水平,而气候模式在此时间尺度上尚显粗糙。
数据独特性:
基线模型:构建了一个复杂的卷积自回归模型,包含空间编码器(ResNeXt块)、时间编码器、传播器(Propagator)和解码器。模型预测降水分布的32个分位数,采用分位数损失函数训练。结果显示,在10天以后,机器学习模型的相关系数开始超过ECMWF和UKMO的传统S2S预报。
数据规模:整合1980-2024年全球七大洋盆(北大西洋、东北太平洋、西北太平洋、北印度洋、南印度洋、澳大利亚区域、南太平洋)的4,500个命名热带气旋,包括热带低压(TD)、热带风暴(TS)和1-5级飓风。
关键统计:
验证方案:使用FourCastNet(结合傅里叶神经算子与ViT架构)进行预报。以2018年飓风迈克尔为例,模型对海平面气压(SLP)的预报与实况相关性在2天达0.97,3天0.82,但5天降至0.3。路径误差控制在40-50公里,强度误差约50-60 hPa,显示出在短中期预报中的实用价值。
跨模态挑战:这是WxC-Bench中最具创新性的任务——将气象场(图像)转化为人类可读的预报文本(自然语言)。相比传统的规则生成系统(如FOG),深度学习模型能从数据中学习词汇模式和语义关联。
数据构造:
模型架构:采用Vision Transformer(ViT)作为图像编码器,GPT-2作为文本解码器的编码器-解码器框架。基线实验ROUGE-L得分达0.42,处于图像描述任务的合理区间。模型成功识别出"severe thunderstorms"(强雷暴)、"damaging winds"(破坏性大风)、"southern Plains"(南部平原)等关键气象词汇和地理信息。
各任务的基线实验不仅验证了数据的"机器学习就绪性"(ML-ready),更揭示了不同大气过程对AI模型的独特挑战:
任务 | 基线模型 | 关键发现 |
|---|---|---|
航空湍流 | 5层ANN | 类别极度不平衡(9:1),F1分数仅17-31%,需发展专门的代价敏感学习或采样策略 |
重力波参数化 | Attention-Unet | 中纬度地形波预报技巧(R²=0.6)显著高于热带对流波(R²=0.3),提示区域特异性物理机制的重要性 |
天气相似搜索 | 卷积自编码器 | 结构相似性指数(SSIM)能有效衡量天气形势相似度,但多参数联合检索仍需探索 |
次季节降水 | 卷积自回归 | 10天后ML技巧超越传统NWP,但空间谱分析显示随预报时长增加,高频信号衰减严重(过度平滑) |
飓风预报 | FourCastNet | 路径预报(RMSE<50km)远优于强度预报(误差50-60hPa),符合"强度预报是热带气旋研究最后前沿"的学界共识 |
自然语言生成 | ViT+GPT-2 | 成功捕捉极端天气事件和地理实体,但长文本一致性和数值准确性仍需提升 |
WxC-Bench已全面开源,体现了现代地球科学数据共享的精神:
nasa-impact/WxC-Bench),提供各任务子目录(.nc, .h5, .zip, .grib2格式)NASA-IMPACT/WxC-Bench),包含数据预处理、基线模型和评估脚本wxcbench),提供程序化访问接口,支持快速数据加载和预处理这种"数据+代码+工具包"三位一体的发布模式,极大降低了研究门槛,有助于构建围绕WxC-Bench的学术生态。
WxC-Bench的发布标志着气象AI从"单点突破"向"系统评估"的重要转变。其长远价值体现在:
局限性与改进方向:
WxC-Bench不仅是一个数据集,更是气象AI时代的"基础设施"。它如同一面多棱镜,让研究人员得以从不同角度审视AI模型对大气复杂性的理解能力。从微尺度的湍流涡旋到行星尺度的季风环流,从二进制分类到诗意的自然语言描述,WxC-Bench正在搭建一座连接数据科学与大气科学的宏伟桥梁。
随着更多研究者加入这一平台,我们有理由期待:未来的气象AI模型将不再只是"预报员",而是能够理解物理机制、解释预报理由、适应多源数据的"数字大气科学家"。这或许正是WxC-Bench留给气象学界最宝贵的遗产——不仅提供了答案,更提出了正确的问题。
延伸阅读:
END
声明:欢迎转载、转发。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及内容、版权和其他问题,请联系小编处理