
DRUGONE
基因扰动实验结合转录组测序是解析基因因果效应的关键手段,但其实验通量有限,许多扰动无法被系统验证。研究人员提出 Scouter——一种利用大语言模型(LLM)生成的基因嵌入,并结合压缩–生成神经网络结构的方法,用于预测未实验扰动的全基因组转录反应。
Scouter 在五个 Perturb-seq 数据集上进行评估,相比基于基因本体(GO)图的先进方法 GEARS 与 biolord,其误差降低 一半以上。Scouter 对 单基因与 双基因扰动均具有高精度预测能力,并且无需预训练,可在普通硬件上高效运行。

基因扰动(如敲除、抑制、增强)会通过调控网络影响众多下游基因的表达。实验技术如 Perturb-seq 能够刻画这些响应,但成本高、扰动数量受限,因此需要计算方法外推“未见扰动”的转录反应。
核心困难是:
研究人员提出:利用 LLM 从基因文本描述中生成 dense gene embedding,可以更有效捕捉基因间调控关系,并克服 GO 覆盖不完整的问题。
方法
Scouter 输入两类信息:
模型包含:
训练策略采用随机匹配单个控制细胞与单个扰动细胞,极大扩增训练样本,使模型在扰动数量很少的数据集上仍能稳定收敛。
结果
Scouter 结构与输入特征
Scouter 框架:

Scouter 在五个数据集上显著优于现有方法
在 Dixit、Adamson、Norman、K562、RPE1 五个 Perturb-seq 数据集上:
这表明 LLM 基因嵌入比 GO 图能更好表征基因功能关联。

真实案例:Scouter 做出更精准的扰动反应预测
1. 单基因扰动 CDKN1A(图 2c)
2. 基因不在 GO 图中的案例 TIMM23
Scouter 支持双基因扰动预测并显著领先
Norman 数据集包含双基因扰动,是验证模型泛化能力的关键场景。
这说明 Scouter 能有效处理多基因相互作用下的非线性转录反应。
Scouter 模型设计优势的机制验证
LLM 基因嵌入的重要性
使用基因描述文本的不同截断比例生成嵌入,发现:
说明 LLM 从文本中成功提取了丰富的功能语义。
将 LLM 嵌入替换进 GEARS/biolord
Scouter 也优于大型基因表达基础模型
讨论
Scouter 的优势来源于三点:
高维 LLM 基因嵌入
压缩–生成架构的高效信息融合
随机选取细胞对的训练策略
相比 foundation models,Scouter 更轻量、精度更高、适用范围更强,是未来基因扰动优先级预测和实验设计的重要工具。
整理 | DrugOne团队
参考资料
Zhu, O., Li, J. Scouter predicts transcriptional responses to genetic perturbations with large language model embeddings. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00912-8
内容为【DrugOne】公众号原创|转载请注明来源