第一时间掌握
新鲜的 AI for Science 资讯
编辑丨coisini
包含 1 亿个人类细胞的超大规模数据集什么样?在其上训练出的单细胞基础模型什么样?
单细胞 RNA 测序(scRNA-seq)技术的出现为分子生物学带来了革命性突破,其能以空前规模和精度测量转录组图谱、揭示细胞异质性。然而,当前单细胞数据分析受到固有数据噪声、批次效应和稀疏性的困扰。
目前领域内研究者已开发出诸多单细胞专用分析工具来应对这些挑战,但这些工具在新数据集上的表现往往不尽如人意,并且难以适应数据规模的持续增长。受大型语言模型(LLM)取得显著成功的启发,同时为了降低训练成本,研究人员开始探索用相对少量的单细胞数据对 LLM 进行微调,但这种方法仍然无法充分挖掘大型图谱数据集中的丰富信息。
为了解决上述挑战,来自中山大学等机构的研究团队整合了一个包含 1 亿个人类细胞的超大规模多样化数据集,并在该数据集上训练出具有 8 亿参数的单细胞基础模型 ——CellFM。为平衡效率与性能,该模型基于 MindSpore 平台,采用改进版 RetNet 架构进行训练。
大量实验表明,CellFM 在细胞注释、扰动预测、基因功能预测及基因互作关系捕捉等任务上均优于现有模型。研究论文发表在《Nature Communications》上。
论文地址:https://www.nature.com/articles/s41467-025-59926-5
8 亿参数的高效基础模型 CellFM
单物种训练数据(如人类细胞)的稀缺性阻碍了大规模单物种模型的发展 —— 现有单物种模型通常在约 5000 万细胞上进行训练,参数量不足 1 亿。这种局限性部分源于单细胞数据收集的困难:数据以不同格式存储,并分散在不同数据库中,包括美国生物技术信息中心(NCBI)的基因表达综合库(GEO)、欧洲核苷酸档案(ENA)、基因组序列归档(GSA)以及免疫学数据库(ImmPort)。
研究团队从公共数据库中系统整合了单细胞数据(图 1a),经过数据清洗和格式标准化处理,最终构建了含约 1 亿人类细胞的跨技术测序数据集。具体来说,数据来自不同器官和测序技术的 19,914 个样本,共计 102,304,686 个人类细胞。其中,4,630 万细胞来自健康供体,其余来自疾病供体。
图 1:CellFM 框架概述
基于该数据集,研究团队开发了具有 8 亿参数的高效基础模型 CellFM(图 1b),其核心架构包含嵌入模块、堆叠式 ERetNet 层和低秩自适应模块(LoRA)。
CellFM 首先通过嵌入模块将标量基因表达数据转化为高维特征,随后输入 L 个 ERetNet 层以捕捉基因表达谱间的复杂关系。每个 ERetNet 层由门控多头注意力(MHA)、简单门控线性单元(SGLU)和层归一化(LN)构成(图 1c),兼具训练并行化、推理高效和性能卓越的优势。此外,CellFM 集成 LoRA 模块以减少模型在新数据集微调时的可训练参数量。
训练完成后,CellFM 可应用于基因功能预测、扰动响应预测、细胞类型注释等下游任务。
提升基因功能预测精度
基因功能预测是解析基因在不同条件下作用机制的关键。人类基因组约含 20,000 个蛋白质编码基因,其中大量基因缺乏功能注释,准确预测其功能对理解生物学系统至关重要。研究团队通过三类基因分类任务评估了 CellFM 的性能:剂量敏感性基因(T1)、二价甲基化 vs 非甲基化基因(T2)、二价甲基化 vs 仅 Lys4 甲基化基因(T3)。
为了公平比较,所有模型均采用零样本学习策略。如图 2a 所示,CellFM 在三个任务中均取得最佳性能,其平均准确率较 UCE 和 scGPT 分别提升 5.68% 和 5.86%,Macro-F1 分数也呈现相同趋势(图 2b)。此外,如图 2c 所示,CellFM 能清晰区分剂量敏感与非敏感基因。这些结果证实了 CellFM 在无需微调的情况下,即可通过零样本学习精准预测基因功能。
图 2:零样本设置下基因功能预测性能对比
扰动响应预测
随着测序与基因编辑技术的进步,大规模实验性扰动模拟已成为研究基因表达与细胞行为变化的重要手段。这些模拟对理解细胞对外界刺激的响应机制至关重要,已广泛应用于药物效应评估、疾病机理探究及治疗策略开发。
为了验证 CellFM 的扰动响应预测能力,该研究采用两个 Perturb-seq 数据集:(1)Adamson 数据集;(2)Norman 数据集。
如图 3 所示,该研究选取差异表达最显著的 20 个基因,采用皮尔逊相关系数进行评估。CellFM 在平均 PCC 和 MSE 指标上分别较 scFoundation 提升 1% 和 1.45%,较 GEARS 更是分别取得 4.75% 和 7% 的优势。评估结果证实,CellFM 能准确预测扰动作用方向。
图 3:扰动响应与逆向扰动预测分析
细胞类型注释
细胞类型注释是单细胞数据分析的核心任务。为了评估 CellFM 性能,该研究基于最新基准框架 scEval8,与多种单细胞基础模型及基线方法(SVM、scmap)进行了跨数据集比较。实验包括:
数据集内评估
跨批次评估
嵌入质量分析
实验结果如图 4 所示。
图 4:各模型的零样本细胞类型注释性能
感兴趣的读者可以阅读论文原文,了解更多研究内容。
人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
领取专属 10元无门槛券
私享最新 技术干货