
DRUGONE
单细胞扰动技术为系统性解析基因功能和调控网络提供了重要工具,但大规模、组合式扰动实验在实践中面临高昂成本与复杂度。为此,大量计算方法被提出用于预测单细胞层面的扰动响应。然而,这些方法在未见过的细胞环境或新扰动条件下是否真正具备泛化能力,仍缺乏系统评估。研究人员对 27 种单细胞扰动响应预测算法进行了全面基准测试,覆盖 29 个真实数据集和多种评估指标。结果显示,目前尚不存在“通用最优”方法,模型性能高度依赖数据规模、任务类型及细胞背景差异。该研究为方法选择提供了实践指导,并揭示了提升泛化能力的关键方向。

单细胞扰动测序技术(如基因敲除、基因抑制或药物处理结合单细胞转录组测量)使研究人员能够在单细胞分辨率下研究扰动效应。然而,随着扰动数量和组合方式的增加,实验复杂度呈指数级增长,使得全面实验筛选在现实中难以实施。
计算预测方法因此成为重要替代方案。现有方法涵盖线性模型、深度学习模型以及近年来兴起的单细胞基础模型。但在多个独立研究中,研究人员逐渐意识到:在同一数据集上表现良好的模型,往往在新的细胞类型或新扰动条件下表现不佳。这引发了对模型“泛化性”的系统性质疑,也凸显了统一基准评测的必要性。
方法概述
研究人员构建了一个系统性的基准评测框架,从任务设定、数据集构建和评估指标三个层面进行设计。评测覆盖两类核心场景:
评测共纳入 27 种方法,包括深度学习模型、图模型、基础模型以及多种基线模型,并在多种真实与模拟数据上,从预测精度、稳健性和计算可扩展性等方面进行综合比较。
结果
整体基准框架与数据覆盖
基准评测涵盖近 30 个数据集,覆盖不同细胞系、患者来源、物种差异以及遗传与化学扰动类型。评估同时关注平均表达变化和分布层面的预测能力,从而全面刻画模型性能。

图 1|单细胞扰动响应预测的基准评测框架与数据集构成
细胞环境泛化:跨细胞背景预测依然困难
在细胞环境泛化任务中,所有方法在“已见分布”条件下表现明显优于“未见分布”条件。当测试细胞环境与训练数据差异较大时,大多数模型性能显著下降,部分情况下甚至不优于简单基线模型。
结果表明,目前方法普遍未能充分建模不同细胞环境之间的异质性,这是限制其泛化能力的核心因素。

图 2|细胞环境泛化场景下不同算法的性能对比
扰动泛化:任务类型强烈影响最优模型选择
在扰动泛化任务中,研究人员发现不存在适用于所有情形的最佳模型:

图 3|扰动泛化场景中不同模型在遗传与化学扰动任务下的表现
稳健性与可扩展性分析
在模拟噪声和稀疏性增强的条件下,所有模型性能均出现不同程度下降,且对数据稀疏性的敏感性尤为明显。在计算效率方面,大多数模型在中等规模数据上可接受,但部分复杂模型在大规模条件下存在明显资源消耗问题。
这些结果强调了在实际应用中平衡预测性能与计算成本的重要性。

图 4|模型在噪声、稀疏性与数据规模变化下的稳健性与计算开销
讨论
这项系统性基准研究清晰表明,当前单细胞扰动响应预测领域仍处于方法高度情境依赖的阶段。模型性能不仅取决于算法设计,还强烈受到数据规模、扰动类型以及细胞环境差异的影响。
研究人员指出,提升模型泛化能力的关键在于更好地刻画细胞背景差异,并在模型设计中显式引入细胞环境表示。同时,基础模型在数据充足时展现出潜力,但并非在所有场景中都优于简单方法。
总体而言,该研究为研究人员在不同实验条件下选择合适的计算方法提供了实用参考,也为未来方法开发指明了方向:真正可泛化的单细胞扰动预测模型,仍有待进一步探索。
整理 | DrugOne团队
参考资料
Wei, Z., Wang, Y., Gao, Y. et al. Benchmarking algorithms for generalizable single-cell perturbation response prediction. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02980-0
内容为【DrugOne】公众号原创|转载请注明来源