首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | 用大语言模型嵌入预测基因扰动后的转录反应

Nat. Comput. Sci. | 用大语言模型嵌入预测基因扰动后的转录反应

作者头像
DrugAI
发布2026-01-06 14:01:17
发布2026-01-06 14:01:17
1300
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

基因扰动实验结合转录组测序是解析基因因果效应的关键手段,但其实验通量有限,许多扰动无法被系统验证。研究人员提出 Scouter——一种利用大语言模型(LLM)生成的基因嵌入,并结合压缩–生成神经网络结构的方法,用于预测未实验扰动的全基因组转录反应。

Scouter 在五个 Perturb-seq 数据集上进行评估,相比基于基因本体(GO)图的先进方法 GEARS 与 biolord,其误差降低 一半以上。Scouter 对 单基因与 双基因扰动均具有高精度预测能力,并且无需预训练,可在普通硬件上高效运行。

基因扰动(如敲除、抑制、增强)会通过调控网络影响众多下游基因的表达。实验技术如 Perturb-seq 能够刻画这些响应,但成本高、扰动数量受限,因此需要计算方法外推“未见扰动”的转录反应。

核心困难是:

  • 输入只有一个分类变量(被扰动的基因),而输出是全基因组表达向量。
  • GO 图极为稀疏,多数基因之间没有共享注释,限制模型的泛化能力。
  • 许多基因不在 GO 图中,GEARS 与 biolord 无法对这些基因做出预测。

研究人员提出:利用 LLM 从基因文本描述中生成 dense gene embedding,可以更有效捕捉基因间调控关系,并克服 GO 覆盖不完整的问题。

方法

Scouter 输入两类信息:

  • 任意一个控制细胞的表达向量;
  • 由 LLM(text-embedding-ada-002)生成的被扰动基因嵌入。

模型包含:

  • 压缩器(Compressor):将控制细胞的高维基因表达压缩为低维状态向量;
  • 生成器(Generator):将低维状态向量与基因嵌入拼接后生成预测的扰动响应。

训练策略采用随机匹配单个控制细胞与单个扰动细胞,极大扩增训练样本,使模型在扰动数量很少的数据集上仍能稳定收敛。

结果

Scouter 结构与输入特征

Scouter 框架:

  • 文本描述 → LLM → 基因嵌入
  • 控制细胞表达 → 压缩器
  • 嵌入 + 控制状态 → 生成器输出预测表达

Scouter 在五个数据集上显著优于现有方法

在 Dixit、Adamson、Norman、K562、RPE1 五个 Perturb-seq 数据集上:

  • Scouter 的 MSE 与 1–PCC 均为 GEARS 与 biolord 的约 50%;
  • 在所有数据集上均取得最低误差;
  • 在单基因扰动预测中稳定表现最佳。

这表明 LLM 基因嵌入比 GO 图能更好表征基因功能关联。

真实案例:Scouter 做出更精准的扰动反应预测

1. 单基因扰动 CDKN1A(图 2c)

  • Scouter 对 20 个差异基因中的 18 个预测方向与幅度均最接近真实值;
  • GEARS 与 biolord 存在明显方向性错误。

2. 基因不在 GO 图中的案例 TIMM23

  • GEARS 与 biolord 无法给出预测;
  • Scouter 能准确预测其扰动后的表达变化。

Scouter 支持双基因扰动预测并显著领先

Norman 数据集包含双基因扰动,是验证模型泛化能力的关键场景。

  • 对 seen2(两个基因均见过)、seen1(一个见过)、seen0(两个都未见过)三类情况,Scouter 的误差均为 GEARS 的 1/4 以下,biolord 的 1/3 以下;
  • 疾病相关基因组合 ETS2 + IKZF3、RHOXF2BB + ZBTB25 的预测中,Scouter 能完整捕捉真实转录反应,而 GEARS 与 biolord 在方向与幅度上均大幅偏离。

这说明 Scouter 能有效处理多基因相互作用下的非线性转录反应。

Scouter 模型设计优势的机制验证

LLM 基因嵌入的重要性

使用基因描述文本的不同截断比例生成嵌入,发现:

  • 文本越完整 → 嵌入越精确 → Scouter 误差越低。

说明 LLM 从文本中成功提取了丰富的功能语义。

将 LLM 嵌入替换进 GEARS/biolord

  • 两者性能仅有轻微改善;
  • 说明它们的图结构与模型架构无法充分利用 LLM 信息;
  • Scouter 专为嵌入设计,因此能最大化使用语义特征。

Scouter 也优于大型基因表达基础模型

  • 在 Adamson、Norman 两个数据集的单基因与双基因扰动任务中;
  • Scouter 在所有指标上 明显优于 这些经过大规模预训练的基础模型;
  • 且 Scouter 训练资源要求极低:普通 GPU 或甚至 CPU 上 1 小时内可完成训练。

讨论

Scouter 的优势来源于三点:

高维 LLM 基因嵌入

  • 这些向量包含丰富语义与基因调控关系
  • 能自然外推到未见过的基因扰动

压缩–生成架构的高效信息融合

  • 控制细胞表达被压缩为紧凑状态
  • 与基因嵌入结合后生成拟合精确的扰动响应

随机选取细胞对的训练策略

  • 极大扩增训练样本
  • 在扰动数量非常有限的数据集上仍能稳定训练

相比 foundation models,Scouter 更轻量、精度更高、适用范围更强,是未来基因扰动优先级预测和实验设计的重要工具。

整理 | DrugOne团队

参考资料

Zhu, O., Li, J. Scouter predicts transcriptional responses to genetic perturbations with large language model embeddings. Nat Comput Sci (2025).

https://doi.org/10.1038/s43588-025-00912-8

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档