
DRUGONE
研究人员提出了 Nicheformer,一种统一建模单细胞与空间组学数据的多模态基础模型。Nicheformer 在超过 3亿个细胞、数千个组织样本、百余种测序平台 的多组学数据上预训练,通过自监督学习捕获细胞状态、组织结构与生态位(niche)间的层级关系。模型结合了单细胞转录组、空间转录组、表观组和蛋白组信息,实现了在细胞与空间层面的一体化表征。Nicheformer 不仅在细胞类型注释、组织定位、扰动响应预测、空间重建等任务中取得最优性能,还能够解释细胞生态位的空间组织规律和跨物种的系统相似性。该研究展示了基础模型在系统生物学中的变革性潜力,为多模态细胞生态系统的全面建模奠定基础。

单细胞与空间组学的结合使研究人员能够以前所未有的细节解析组织结构和细胞生态。然而,当前方法普遍局限于单一模态(如scRNA-seq、scATAC-seq或spatial transcriptomics),缺乏统一框架以捕获细胞状态、空间环境和跨组织关系。
传统的任务特定模型无法有效迁移至新样本或不同物种,也难以揭示细胞生态位的层级组织模式。与此同时,单细胞数据的高稀疏性与空间数据的结构复杂性使得联合建模面临挑战。
借鉴语言模型在跨语义场景下的成功经验,研究人员开发了 Nicheformer,一种具备生态位感知能力(niche-aware)的多模态基础模型,可在无监督条件下学习生命系统的统一表示。
方法
Nicheformer 基于 多层Transformer架构,结合 图神经网络(GNN)与多模态注意力机制,以构建跨单细胞与空间层级的统一表征空间。
研究人员整合了来自人、小鼠及灵长类的多模态数据集,包括scRNA-seq、spatial transcriptomics(Visium、Slide-seq、MERFISH等)、scATAC-seq和CITE-seq,总计超过 3亿个细胞。
模型训练采用自监督学习框架,包含以下任务:
通过上述机制,Nicheformer 能学习到层次化的细胞—组织—生态位表示,为多任务迁移提供基础。
结果
Nicheformer 模型架构与多模态训练框架
模型由单细胞编码器(Transformer-based)、空间编码器(Graph Attention-based)和模态融合模块组成。融合层通过多模态注意力将表达特征与空间邻域特征整合成统一嵌入,形成生态位感知表示。模型在大规模数据上进行联合预训练,捕获了跨模态与跨层级的生物语义结构。

图1|Nicheformer 模型框架与生态位感知机制
跨模态整合与统一生态位表征
研究人员验证 Nicheformer 在多模态整合中的性能。在多组织和多平台数据上,模型能够对齐单细胞和空间模态,重建精确的细胞位置与类型。Nicheformer 在对齐任务中的性能超越了 scVI、scGPT 和 Tangram,AUC 提升 15–30%。模型输出的生态位嵌入空间显示出高层次的结构聚类,不同细胞群在空间上形成生理意义的功能分区。

图2|Nicheformer 的跨模态整合与生态位映射
跨物种与跨组织迁移能力
Nicheformer 能在无需重新训练的情况下实现跨物种迁移。在人类与小鼠的肝脏、脑和心脏数据中,模型准确匹配同源细胞类型,平均准确率超过 92%。在多组织联合分析中,模型自动识别功能相似组织的共享调控模块(如肝-胰腺代谢网络、心肌-骨骼肌信号轴)。嵌入空间中物种间的生态位关系表明,模型学习到进化保守的细胞功能语义。

图3|Nicheformer 的跨物种与跨组织泛化表现
多任务下游应用
Nicheformer 在多个生物学任务中表现优异:

图4|Nicheformer 在多任务生物学应用中的表现
生态位(niche)结构解析与组织分区
通过模型嵌入的聚类分析,研究人员识别出多个具有空间特征的生态位结构。在肝脏数据中,模型发现血管周围区与肝细胞生态位的信号梯度(Wnt、Notch 通路);在大脑皮层中,模型识别出层状神经元生态位与免疫微环境的相互作用。这些结果揭示了细胞群在组织中的自组织规律,并为理解疾病微环境提供了新思路。

图5|基于 Nicheformer 的空间生态位结构解析
生成式应用:虚拟组织与多模态补全
利用Nicheformer的生成能力,研究人员实现了虚拟组织生成与组学补全。在部分观测条件下,模型可生成高保真虚拟切片,重建未测区域的基因表达与细胞分布。此外,模型能补全缺失模态(如从转录数据预测蛋白表达),生成结果与真实实验数据的相关性达0.94。模型还可通过条件生成探索特定扰动下的空间重构过程。

图6|Nicheformer 的生成与多模态补全能力
讨论
Nicheformer 的提出标志着基础模型在单细胞与空间组学领域的全面落地。通过生态位感知的自监督训练策略,模型实现了从细胞状态到组织结构再到生态系统层级的统一建模。其强大的迁移性与解释性使得不同物种、组织和模态间的信息得以共享,为多组学整合和系统生物学研究提供了强有力的工具。
研究人员指出,未来方向包括:
总体而言,Nicheformer 不仅是一个通用的生命表征模型,更是通向“数字生物系统建模”的关键桥梁,预示着从细胞到组织、从结构到功能的AI驱动生命理解新时代的到来。
整理 | DrugOne团队
参考资料
Tejada-Lapuerta, A., Schaar, A.C., Gutgesell, R. et al. Nicheformer: a foundation model for single-cell and spatial omics. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02814-z
内容为【DrugOne】公众号原创|转载请注明来源