
https://arxiv.org/abs/2509.09052
近年来,人工智能技术在气象预报领域取得了革命性进展。基于深度学习的天气预测模型,如FourCastNet、Pangu-Weather和GraphCast等,已经展现出超越传统数值天气预报(NWP)系统的潜力。这些模型通过分析历史再分析数据(如ERA5)学习大气动力学模式,能够以更低的计算成本生成高质量预报。
然而,随着研究的深入,这一领域开始面临性能提升的瓶颈。尽管不断有新模型提出,但它们在某些指标上的表现逐渐趋同,很难出现某个模型在所有变量、所有地区和所有预报时长上都明显优于其他模型的情况。这种性能饱和现象促使研究者开始思考新的突破方向。
传统数值天气预报领域早已认识到单一模型的局限性,发展了多模式集合预报系统,通过整合多个独立模型的预测结果来提高预报准确性和可靠性。受此启发,本文作者提出了一个新颖的思路:不追求训练一个更强大的单一模型,而是开发一个能够智能融合现有优秀模型输出的框架——混合气象专家模型(Mixture of Weather Experts, MoWE)。
MoWE的核心思想是承认不同模型在不同情境下各有优势,并通过学习算法动态地组合这些模型的输出,从而产生比任何单一模型都更准确的预报。这种方法不仅能够提升预报性能,还能以相对较低的计算成本实现这一目标,因为它不需要从头训练庞大的天气预报模型,而是利用已有的预训练模型作为"专家"。

Figure 1: A diagram illustrating the architecture of the Mixture-of-Weather Experts (MoWE).
MoWE采用了一种精巧的模型融合策略,其核心是一个基于Transformer架构的门控网络(gating network)。该系统接收多个专家模型的预测结果作为输入,并输出一组空间上变化的权重图,指示如何最佳地组合这些预测。
系统的数学表达如下:
Ŷ = Σ(i=1 to N)(W_i ⊙ E_i) + b其中E_i表示第i个专家模型的预测,W_i是对应的权重图,b是偏置项,⊙表示逐元素乘法。最终预测Ŷ是所有加权专家预测的总和加上偏置项。
这种设计的优势在于其灵活性和适应性。不同于静态权重分配(如简单平均),MoWE能够根据地理位置、气象变量和预报时长的不同,动态调整各专家模型的贡献程度。

Figure 2: RMSE Comparison for Weather Forecasting Models.
门控网络是MoWE的核心组件,其基于Vision Transformer(ViT)架构,专门设计用于处理气象场数据。该网络的输入是由所有专家模型的预测堆叠形成的多通道"图像",其中每个通道对应一个专家模型对一个气象变量的预测。
网络的处理流程如下:
门控网络还引入了条件机制,使权重生成过程能够考虑预报时长信息。这是通过自适应层归一化(Adaptive Layer Normalization)实现的,该技术将预报时长信息作为调制参数,影响网络中的特征标准化过程。

Figure 3: This image displays 2 m temperature (K) for ERA5, forecasts at 6-hour, 24-hour, and 48-hour from various models ( FCN3, Aurora, Pangu, and MoWE) along with the learned weights for FCN3, Aurora, and Pangu in the MoWE.
作者精心选择了三个具有代表性的天气预报模型作为MoWE的专家:
这些模型在架构、训练目标和预报特性上各有不同,提供了互补的优势,为MoWE的有效融合奠定了基础。
MoWE的训练过程经过精心设计,以最大限度地利用可用数据同时控制计算成本。训练数据涵盖1980-2014年期间的ERA5再分析数据,使用2015年数据作为测试集。
训练流程的关键特点:
这种设计使得MoWE能够以相对较小的计算成本实现性能提升,只需要训练轻量级的门控网络而不是庞大的天气预报模型。
作者设计了全面的实验来评估MoWE的性能。实验涵盖了多个气象变量(温度、风速、位势高度等)和预报时长(6小时至48小时),并与以下基线方法进行比较:
评估指标主要使用均方根误差(RMSE),这是气象预报中广泛使用的准确性度量标准。所有实验均使用2015年的数据作为测试集,确保结果的可比性和可靠性。
MoWE在所有测试变量和预报时长上都表现出了一致性的性能提升。具体而言:
短期预报(6小时):MoWE的性能接近最佳专家(Aurora),权重重心明显偏向该模型。这反映了Aurora在短期预报上的优势,也表明门控网络能够正确识别这种优势。
中期预报(24-48小时):MoWE展现出最显著的性能提升,RMSE比最佳单一专家低达10%。权重分布变得更加均衡,表明多个专家在这个时间尺度上都提供了有价值的信息。
变量间比较:MoWE对所有测试变量都带来了改善,但对不同变量的改善程度有所不同。这表明门控网络能够学习到变量特定的融合策略。
通过对学习到的权重进行可视化分析,作者发现了几个有趣的现象:
这些发现表明,MoWE不仅仅是在进行数学上的优化,而是在学习 physically-informed 的融合策略,能够根据气象系统的实际行为调整各专家的贡献。
作者通过训练不同规模的MoWE模型(Base-25M参数和Small-9M参数)来研究模型容量对性能的影响。结果显示,Base模型相比Small模型有轻微但一致的性能提升,表明更大的容量有助于学习更精细的融合策略。
然而,即使是参数较少的Small模型也显著优于所有基线方法,这表明MoWE框架的有效性主要来自于其设计理念而非单纯的模型容量。这一发现尤其重要,因为它意味着MoWE可以在计算资源有限的环境中仍然提供性能提升。
MoWE代表了天气预报范式的重要转变:从追求单一的"最佳模型"转向协同利用多个模型的优势。这种方法有以下几个重要贡献:
MoWE不仅具有学术价值,还有重要的实际应用潜力:
作者也坦诚讨论了MoWE当前的局限性以及未来的改进方向:
当前局限性:
未来方向:
MoWE代表了一种新颖且有效的天气预报范式,通过智能融合多个专家模型的输出,实现了显著的性能提升。该方法的核心优势在于其能够根据具体的气象情境动态调整各专家的贡献,从而产生比任何单一模型都更准确的预报。
这项工作的重要意义不仅在于其具体的性能提升,更在于它为我们提供了应对数据驱动天气预报性能平台期的新思路。随着优秀天气预报模型数量的不断增加,如何协同利用这些模型的能力将变得越来越重要。MoWE为此提供了一个可行的技术路径。
展望未来,MoWE框架有几个有前景的发展方向。首先是扩展至概率性预报,通过利用专家模型的不确定性信息提供更可靠的预报产品。其次是集成传统数值天气预报模型,实现数据驱动方法与物理模型的优势互补。最后是开发更高效的门控机制,适应不断增长的专家数量和气象变量。
总之,MoWE标志着天气预报研究从"模型竞争"向"模型协作"的重要转变,为下一代天气预报系统的发展指明了方向。通过社区共同努力和模型间的智能协作,我们有望构建更加准确、可靠和高效的天气预报能力,更好地服务社会和经济需求。
END
声明:欢迎转载、转发。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及内容、版权和其他问题,请联系小编处理。