

从"⽤数据"到"完善数据"的⽣成式⻉叶斯新范式
降⽔决定了⽔资源调度、农业⽣产、防洪减灾与⽣态系统稳定,也是评估⽓候变化与极端事件⻛险的关键变量。然⽽,它同时也是最难以精确把握的⽓候要素之⼀。降⽔在时空上⾼度间歇,具有强⾮线性特征,其组织形态跨越多个尺度,从局地对流单体到⼤尺度锋⾯系统,这种复杂性导致观测与模拟都⾯临系统性不确定性与结构性偏差。
在现实业务与科研中,我们通常依赖三类降⽔信息源。⾬量站提供的点位观测相对直接可靠, 但空间分布极为稀疏,在海洋与偏远地区更是⼏乎空⽩。卫星反演产品如IMERG覆盖范围⼴、分辨率⾼,但存在检索误差与区域依赖偏差,例如对云顶温度与降⽔关系的经验假设在某些云系下并不稳健。再分析或数值模式产品如ERA5和HRES具有物理⼀致性和时空完整性,却受限于参数化误差与系统偏差,分辨率也往往不够精细。
正因如此,多源融合⼀直被视为提升降⽔产品质量的重要⽅向。然⽽传统融合⽅法往往需要把异构数据强⾏投影到统⼀⽹格:稀疏站点被插值成连续场,这⼀过程既可能引⼊虚假的空间相关,也可能抹平对流边界等关键⾼频结构。最致命的是,它会损伤站点观测最宝贵的局地真实性。对于覆盖率不⾜百分之⼀的稀疏站⽹⽽⾔,插值实质上是在凭空"编造"并不存在的信息。
在这⼀背景下,中国科学院⼤⽓物理研究所潘宝祥副研究员与清华⼤学林岩銮教授团队,联合河海⼤学⽔⽂⽔资源学院李⽂韬副教授、中⼭⼤学⼤⽓科学学院李璐副教授、中国科学院⻘藏⾼原研究所李新研究员,以及美国加州⼤学欧⽂分校教授、美国国家⼯程院院⼠Efi FoufoulaGeorgiou,在Nature Communications发表论⽂"Fusion of multi-source precipitation records via coordinate-based generative models",提出了PRIMER框架。PRIMER的全称是 Precipitation Records Infinite MERging,它采⽤坐标式扩散⽣成模型,在先验、似然、后验的⻉叶斯框架内融合多源降⽔记录,并以后验采样统⼀实现偏差订正、降尺度与背景加观测的融合分析等任务,展示了⼀个可迁移、可复⽤的⽣成式数据融合范式。
科研亮点
PRIMER解决的核⼼痛点在于如何将多源融合提升为⽣成式⻉叶斯推断。传统⽅法往往把融合 仅视为求取⼀个更好的确定性场,⽽PRIMER构建的是可采样的概率模型。具体⽽⾔,模型⾸ 先从ERA5和IMERG等覆盖⼴泛但不完美的产品中学习降⽔场的统计规律,形成先验分布。随 后通过更可靠的站点信息对先验进⾏校准与约束。最终输出的是后验分布,从⽽能够获得集合 PRIMER:⽤坐标式扩散⽣成模型融合多源降 ⽔记录 科研亮点 结果与不确定性度量。论⽂主要采⽤平均绝对误差和连续等级概率评分等指标进⾏验证。
论⽂的核⼼创新之⼀是⽤坐标式⽣成模型原⽣处理规则⽹格与不规则站点的混合数据。 PRIMER将降⽔场表示为从⼆维空间坐标到降⽔强度的连续函数,把位置坐标与降⽔强度作为 基本学习对象。这样⼀来,站点与格点不再需要先被统⼀成同⼀张⽹格图像才能进⼊模型。格 点数据提供⼤尺度结构与连续约束,站点数据以局地⽅式影响函数值,不再被插值过程稀释或平滑。这⼀设计直接击中了传统融合的结构性缺陷:尽量避免为了统⼀格式⽽牺牲信息。
PRIMER的训练采⽤两阶段策略。第⼀阶段预训练在ERA5与IMERG上学习基础先验。第⼆阶 段微调则⽤站点或站点构建的⾼可靠样本对模型进⾏校准,得到更可信的更新先验。论⽂还给 出⼀个重要的⼯程细节:微调时采⽤共享权重的混合抽样策略,总损失由三部分加权组成,其 中ERA5权重为0.1,IMERG权重为0.4,站点权重为0.5。这⼀配置在防⽌遗忘⼤尺度结构和增 强站点约束之间取得了平衡。
训练完成后,PRIMER展现出即插即⽤的特性。只需改变条件观测,即可在同⼀先验下进⾏偏 差订正、降尺度以及观测与背景融合分析等多种任务。更进⼀步,论⽂展示PRIMER能在⽆需 再训练的情况下应⽤于未⻅过的数据源,如ECMWF的HRES业务预报,以及CMIP6情景下的 未来年份模拟输出,体现出⼀定的零样本泛化能⼒。
⽅法概述
PRIMER采⽤基于随机微分⽅程的score-based扩散模型学习降⽔分布。为区分数据来源,模 型引⼊实体嵌⼊作为数据源标识,分别对应ERA5、IMERG和⾬量站。这让模型在同⼀框架中 学习不同来源的条件分布,并在融合与微调阶段实现共享结构、保留差异。
传统U-Net式扩散通常要求固定分辨率⽹格输⼊。PRIMER受⽆限维扩散模型等理论⼯作启 发,将问题放到函数空间或希尔伯特空间中处理。针对函数空间中的噪声不可积问题,模型采 ⽤mollification技术,即⽤⾼斯核平滑噪声,以保证过程在数学上可⽤、在数值上可稳定。
⽹络结构⽅⾯,PRIMER采⽤混合多尺度架构:先在不规则点上提取特征,再投影到粗⽹格⽤ U-Net捕捉多尺度上下⽂,最后再回投影到⽬标坐标点。这种设计兼顾了坐标式输⼊的灵活性 与⽹格卷积的强表达能⼒。
在推断阶段,PRIMER通过修改反向扩散过程实现后验采样。论⽂在实现上采⽤两类代表性⽅法:Inpainting对观测位置施加掩膜约束,SDEdit则可视作全场观测的特殊情形,通过噪声强 度参数控制偏离输⼊的幅度。论⽂还做了噪声⽔平敏感性分析,在⼀项IMERG实验中发现噪 声⽔平约为0.6时可取得较好的误差与概率评分权衡。
主要结果
在先验层⾯,论⽂⽤⽆条件⽣成样本评估先验的统计⼀致性。对均值场与标准差场,学习到的先验与各⾃参考数据在空间结构上⾼度⼀致,均值的⽪尔逊相关系数约为0.85⾄0.97,标准差约为0.75⾄0.86。径向平均功率谱也能较好恢复多尺度特征,尤其对与对流过程相关的中尺度较为关键。经站点微调得到的更新先验在保留⼤尺度结构的同时引⼊局地真实性,论⽂将这种稀疏站点校准⽽不破坏整体结构的效果形象地称为"climatological jailbreak"。
在典型⾼影响事件如梅⾬锋、台⻛降⽔、局地对流极端中,使⽤更新先验的后验采样相较于仅⽤单⼀来源先验在站点评估上表现更优。此外,论⽂设计了GaugeFusion实验:采样时额外引⼊百分之⼆⼗的站点作为约束,在其余百分之⼋⼗站点上评估误差,结果显示误差进⼀步明显下降,体现了背景场加稀疏观测联合约束与业务分析系统需求的⼀致性。
论⽂在2016年的150个降⽔事件上抽取后验集合进⾏统计检验。平均绝对误差与连续等级概率评分在⼤多数站点呈正向改进,并通过统计检验确认显著性。不仅是点值误差下降,降⽔强度分布的⾼值尾部也更接近参考站点统计。在空间结构⽅⾯,后验结果与站点观测的相关性以及空间滞后相关结构诊断也有提升,显示PRIMER不只是把数值调准,还在⼀定程度上把结构修对。
论⽂还展示PRIMER可直接对未参与训练的ECMWF HRES进⾏偏差订正,连续等级概率评分在空间上出现⼴泛改善。同时也可⽤于CMIP6⾼分辨率模拟体系下的未来年份降尺度,在保持⼤尺度变化⼀致的同时补充细尺度结构,体现出先验可迁移的潜⼒。
潜在影响
这项⼯作的意义在于它代表了从使⽤数据到完善数据的范式转变。⾸先,PRIMER提供可采样的融合先验与不确定性量化,相⽐传统单值融合,输出的后验集合更适合⻛险评估、极端事件概率刻画与决策⽀持。其次,坐标式表征让站点不必插值上⽹,避免虚假相关与过度平滑,最⼤化利⽤稀疏但⾼可信的观测。再者,同⼀先验通过不同条件即可承担偏差订正、降尺度与分析融合,符合⼀个模型多种任务的⼯程需求,可作为⾯向业务链路的可插拔后处理模块。最后,降⽔是地球系统中最复杂、最不连续的变量之⼀,若在降⽔上可⾏,未来推⼴到其他稀疏观测加背景场的变量具有吸引⼒。
局限与展望
论⽂也坦诚讨论了现有⼯作的边界。在观测稀缺区域如海洋与偏远地区,⾼质量站点缺乏,难以做同等严格评估。⽬前实验以东亚与中国区域为主,全球尺度融合在数据⼯程与计算成本上更具挑战。时间连续性仍需加强,当前推断偏向逐帧或逐时处理,后验样本跨时间步的⼀致性缺乏理论保证,未来可探索视频式或时空联合先验以增强时序连贯。此外,把温度、湿度、⻛场等纳⼊条件通道,有望进⼀步提升可辨识性与推断稳定性。
论⽂信息
Sun, S., Nai, C., Pan, B. et al. Fusion of multi-source precipitation records via coordinatebased generative models. Nature Communications (2025).https://www.nature.com/articles/s41467-025-67987-9
作者团队
孙森灿,清华⼤学地学系直博三年级研究⽣;奈聪毅,中国科学院⼤⽓物理研究所科研助理;潘宝祥,中国科学院⼤⽓物理研究所副研究员;李⽂韬,河海⼤学⽔⽂⽔资源学院副教授;李璐,中⼭⼤学⼤⽓科学学院副教授;李新,中国科学院⻘藏⾼原研究所研究员;Efi FoufoulaGeorgiou,美国加州⼤学欧⽂分校教授、美国国家⼯程院院⼠;林岩銮,清华⼤学地学系教授。
代码仓库
https://github.com/sunmoumou1/PRIMER
END
声明:欢迎转载、转发。气象学家公众号转载信息旨在传播交流,其内容由作者负责,不代表本号观点。文中部分图片来源于网络,如涉及内容、版权和其他问题,请联系小编处理。