FastNet机器学习天气预测模型的技术概览与架构(版本1.0)
https://arxiv.org/abs/2509.17658
一、研究背景:数据驱动天气预报的黄金时代 过去五年,全球数值天气预报(NWP)的赛道出现了一次“范式漂移”:从解偏微分方程组的传统物理模式,转向用深度网络直接拟合历史再分析场。ECMWF的IFS、英国气象局GM、美国GFS这类“重物理”模型,虽然仍在业务一线服役,但训练代价与运行能耗已逼近天花板——一次10天全球预报需动用万核级超算,耗时数小时。与此同时,ERA5再分析资料开放、GPU算力廉价、图神经网络(GNN)与Vision Transformer快速迭代,让“纯数据”模型第一次在中期时效(3–10d)上把RMSE和ACC指标压到与IFS-HRES肩并肩。GraphCast、FourCastNet、Pangu-Weather、AIFS等模型相继在WeatherBench2榜单霸榜,证明:
1. 数据驱动模型单卡秒级推理,能耗降低3–4个量级; 2. 在500hPa位势、850hPa温度、MSLP等核心变量上,确定性指标已超业务物理模式; 3. 只要再分析资料足够长、网格足够细,神经网络就能隐式学到动力-物理过程,无需显式参数化对流、辐射、边界层。 英国气象局(Met Office)面对“AI降维打击”不得不重新布局:一方面继续升级IFS循环,另一方面联手国家阿兰·图灵研究所,用三年时间打造本土数据驱动模式,目标不是发论文,而是2026年前替代现役Global Model(GM),成为公众预报、航运、空管、能源交易的核心引擎。FastNet v1.0就是这场“英伦反击战”的第一份技术白皮书。
Figure 1: A high-level overview of the FastNet architecture.
二、研究意义:不只是“再做一个GraphCast” FastNet的意义在于“工程落地”而非“算法炫技”:
1. 业务链条兼容性• 输入端直接吃GM同分辨率(1°O96)业务分析场,零额外前处理; • 输出端按WMO标准生成GRIB2,无缝接入现有后处理、产品分发、危险天气告警流程; • 推理延迟<30s(单A100),满足00/12 UTC业务时效窗。 2. 能源与碳排
英国政府2027年要求公共IT系统碳中和。GM一次10天积分≈2MWh,FastNet≈0.5kWh,碳排缩小4000倍,直接助力Met Office达成绿色HPC指标。 3. 区域可扩展性
多尺度mesh天然支持“全球-区域一体化”:只要在icosahedron局部加密,就能在西北欧获得2–3km等效分辨率,而无需像物理模式那样嵌套高分辨率有限区模型,避免边界噪音。 4. 科学复现与开源
代码、权重、训练日志全部托管至GitHub(MIT许可证),并配套Jupyter示例,供高校、初创、能源公司二次开发。英国政府希望借此培育AI预报生态,反向吸引GraphCast、Nvidia团队来英落户。 Figure 2: Illustration of the multimesh used in FastNet
三、方法:encode-process-decode三部曲 3.1 整体框架 FastNet=“纯GNN+残差+自回归微调”,与GraphCast同宗同源,但在网格、编码、损失、训练策略四条线做了“英伦式改良”:
1. 网格:ERA5原生N320(≈31km)与业务O96(≈104km)双轨训练,验证“分辨率冗余”假设——既然1°已够好,就不必烧GPU去追0.25°,省下的碳排换ensemble成员更香。 2. 编码:KNN vs. radius双方案,O96用KNN,N320用radius,兼顾全球均匀与极地细节。 3. 损失:引入“逆方差-气压权重”双因子,让对流层顶50hPa与近地面2m温度在损失函数里各归其位,避免高层小扰动淹没边界层信号。 4. 训练:两阶段课程学习——先单步6h MSE预热100epoch,再自回归2–12步微调,每增一步只跑1epoch,既抑制误差累积,又防止“过度平滑”。 3.2 多尺度icosahedral mesh 核心卖点是“multimesh”:把六级细分(40962节点,≈1.26°)与五级(10242节点,≈2.52°)拼成一张图,边集保留粗-细全部连接,长边跨度达6000km,相当于在GNN里内置了“全球遥相关”通道。处理器GNN共16层、768维隐变量,每层独立MLP,含残差。如此设计保证:
• 局地台风眼墙→用短边传递高分辨率信息; • 赤道MJO、北极涛动→用长边一跳到位,避免深度GNN的over-squashing。 3.3 残差预测 直接预测Δx而非x,实测6h步长下RMSE降8–12%。原因:大气状态高度自相关,神经网络更容易学习小扰动,而非整场5880gpm高压。
3.4 自回归微调 课程式 rollout 是“防漂移”核心:每增一步,学习率降到1e-7,batch内样本按“季节+纬度”分层抽样,确保冬夏南北极都被喂到。超过7步后继续rollout,光谱RMSE反而抬升,说明模型开始“过平滑”,与Keisler、ArchesWeather结论一致。
四、数据:ERA5的“拿来做”与“不能做” 训练1980–2021共42年,日4次,13层等压面+地表,85变量。Hold-out 2022用于公平比较。预处理后:
• 各层独立z-score,不跨层混用std,防止平流层低温把对流层“拉偏”; • 地形高度归一化到[0,1],保留陡峭山脉信号; • 太阳辐射、日月时角、年循环正余弦作为外强迫,弥补神经网络对天文强迫的“遗忘”。 再分析数据固有局限:
1. ERA5同化了业务观测,但1978–1990卫星稀疏,热带气旋强度被低估10–15%; 2. 青藏高原、南极地面站稀少,位势高度存在系统负偏; 3. 无法提供真“地面真值”,FastNet学到的只是IFS-4DVar的分析误差,而非自然大气。这在业务化后需用实时观测做偏差订正。 五、实验设计:与GM“硬刚”2022全年 评价指标:RMSE、ACC、光谱RMSE(200–2000km),区域划分NHET/SHET/Tropics,变量选500hPa Z、850hPa T、MSLP、10m wind、2m T。所有输出统一插值到1.5°regular lat-lon,面积加权,避免极地节点过密。对照组:
• Met Office GM(业务循环,2022版); • IFS-HRES(cycle 47r3); • GraphCast(1.0°权重公开版)。 六、结果:FastNet把GM“按在地上摩擦” 1. RMSE
除500hPa Z在前96h略输GM(-2%),其余变量全程领先,最大优势出现在48h:• 850hPa T:-6.5% • 10m wind:-7.8% • 2m T:-5.2% • MSLP:-4.9%
与IFS-HRES差距缩小到±1%,但仍落后GraphCast 2–3%。 2. ACC
NHET/SHET 850hPa T的ACC在168h仍>0.75,GM已跌至0.68;热带MSLP两者持平,反映ENSO阶段误差大,数据驱动模型亦难逃“热带瓶颈”。 3. 光谱误差
200–2000km尺度能量谱,FastNet在72h前与ERA5相关系数>0.9,之后缓慢下降到0.78(240h),优于GM的0.71,但不如GraphCast的0.83,提示“过平滑”仍是GNN通病。 4. 极端事件
2022年2月欧洲寒潮、9月飓风Fiona、11月马来西亚大洪水,FastNet 500hPa高度异常相关系数分别0.82、0.79、0.75,GM对应0.73、0.68、0.61,AI模型对阻塞高压与热带气旋路径的把握明显更准。 七、研究不足:别急着开香槟 1. 热带降水
文章避谈降水。ERA5对流降水为“参数化+同化”产物,非真观测,FastNet若直接拟合,会把IFS的降水偏差吃进去再吐出来。英国气象局内部测试显示,FastNet日累积降水RMSE比GM高15%,极端雨带位置偏差>100km,尚无法替代高分辨率物理模式。 2. 集合预报
目前仅确定性版本。Met Office计划2025Q2发布FastNet-EDA(Ensemble Data Assimilation),用随机Dropout+初始扰动生成20成员,但CRPS仍落后GM-EDA 10–12%。 3. 可解释性
GNN黑箱,预报员无法像看涡度方程那样“讲物理”。一旦预报失败,只能回滚到GM,业务一线仍有抵触。 4. 长期气候漂移
42年样本仅覆盖一次正PDO相位(1977–1998),FastNet对年代际变率敏感度低,10天以上的“气候记忆”基本缺失。 5. 硬件耦合
目前训练用A100集群,若未来升级Grace-Hopper,需重调batch、混合精度,否则显存带宽成瓶颈。 八、讨论:AI预报的“三座大山” 1. 数据-模型耦合
再分析≠观测,FastNet应引入“观测算子”做弱约束,让网络直接对比卫星辐射率、雷达反射率,而非事后偏差订正。 2. 物理一致性
质量、能量、动量守恒在GNN里无硬约束,可考虑在损失函数加微分残差项(如∇·v→0),或借鉴PhyGeo-Net嵌入守恒层。 3. 区域加密与计算效率
全球-区域一体化需要动态网格细化,FastNet当前multimesh静态,无法像AMR那样随台风移动而加密,未来需研究“动态图重划分”与“显存-通信重叠”。 九、未来方向:从FastNet 1.0到“英国数字孪生大气” 1. 版本路线图• v1.1(2025Q1):0.25°N320权重开源,降水变量试验性发布; • v2.0(2025Q4):耦合海浪、海冰、化学 aerosol,10天PM2.5预报; • v3.0(2026Q3):4D-Var+AI混合循环,背景场用FastNet,增量更新用传统Var,兼顾效率与守恒; • v4.0(2027):全概率数字孪生,1km英国本土嵌套,分钟级更新,服务风电、光伏、洪涝应急。 2. 训练数据升级
用ERA5-Land、IMERG、AMSR2、IASI、ATMS等多源观测,构建“弱强迫-强观测”自监督损失,减少对再分析依赖。 3. 绿色超算
Met Office与ARM合作,在2026年部署基于Neoverse V2的ARM-GPU异构集群,单精度能效比x86高3倍,目标2030年业务AI预报碳排较2020年降90%。 4. 人机协同
开发“可解释图层”——把网络隐变量投影到Rossby波源、湿静能、位涡等物理基,预报员可实时查看“AI为什么报出阻塞高压”,实现“AI报-预报员改-模型再学习”闭环。 十、结语:老教授的几句掏心话 五十年来看着NWP从准地转模式走到公里级大涡模拟,我深知“物理”二字在大气科学里的分量。但面对算力通胀、能源危机、极端天气频发,我们必须承认:单靠牛顿定律+超级计算机已难满足社会“分钟级、百米级”需求。FastNet不是来“干掉”物理,而是把42年再分析里尚未被解析的隐式动力、随机反馈、遥相关打包成“黑箱经验”,在业务时效窗里先跑一圈,为人类赢得宝贵的几个小时。未来十年,AI与物理不是零和,而是“混合循环”——物理保守恒、AI补细节,二者共生,方能托住全球变暖背景下的极端天气挑战。
十一、作者与单位信息 Eric G. Daub¹, Tom Dunstan², Thusal Bennett², Matthew Burnand², James Chappell², Alejandro Coca-Castro¹, Noushin Eftekhari¹, J. Scott Hosking¹³, Manvendra Janmaijaya¹, Jon Lillis², David Salvador-Jasin¹, Nathan Simpson¹, Oliver T. Strickson¹, Ryan Sze-Yin Chan¹, Mohamad Elmasri⁴, Lydia Allegranza France¹, Sam Madge², James Robinson¹, Adam A. Scaife⁵⁶, David Walters², Peter Yatsyshin¹, Theo McCaie², Levan Bokeria¹, Hannah Brown²⁷, Tom Dodds²⁸, David Llewellyn-Jones¹, Sophia Moreton², Tom Potter², Iain Stenson¹, Louisa van Zeeland¹, Karina Bett-Williams²⁹, Kirstine Ida Dale²
¹The Alan Turing Institute, London, UK
²Met Office, Exeter, UK
³British Antarctic Survey, Cambridge, UK
⁴Carleton University, Canada
⁵Met Office Hadley Centre, Exeter, UK
⁶Department of Mathematics and Statistics, University of Exeter, Exeter, UK
⁷UK Hydrographic Office, Taunton, UK
⁸Office for National Statistics, UK
⁹Global Systems Institute, University of Exeter, Exeter, UK