Patterns | 大语言模型赋能药物研发

DrugAI

发布于 2026-01-06 12:35:34

2990

文章被收录于专栏：DrugAIDrugAI

DRUGONE

大语言模型（LLMs）在药物发现与开发领域的应用标志着一次重要的范式转变，为理解疾病机制、推动全新药物发现以及优化临床试验流程提供了新方法。本综述强调了LLMs在重塑药物研发各阶段中的作用。研究人员探讨了这些先进的计算模型如何揭示靶点与疾病的关联、解读复杂的生物医学数据、提升药物分子设计、预测药效与安全性，并推动临床试验的执行。本研究旨在为计算生物学、药理学及AI4Science领域的研究人员与实践者提供全面的概述，展现LLMs对药物发现与开发的潜在变革性影响。

“语言只是科学的工具，词语只是思想的符号。” ——塞缪尔·约翰逊

新药的研发是一项长期承诺，通常需要10–15年，耗资超过20亿美元，才能将一种新药带到患者手中。该过程传统上分为三个阶段：理解疾病并选择治疗靶点、开发靶向疗法，以及在临床试验中测试其有效性。由于生物系统的复杂性和所需的广泛验证，每个阶段都耗时且资源密集。虽然这些步骤对于最小化风险、确保只有安全且有效的疗法被引入至关重要，但冗长的周期也延迟了患者获得潜在疗法的机会。因此，通过提高效率和扩展当前实践的能力，可以带来巨大的收益。

更广阔的视角

药物开发是一个公认的漫长且昂贵的过程，往往需要十年以上，并耗费数十亿美元。如此冗长的时间线严重延迟了患者获取关键治疗手段的机会。人工智能，尤其是能够同时理解科学与人类语言的大型语言模型，为这一挑战提供了有前景的解决方案。尽管LLMs最初是为理解和生成自然语言而设计的，但它们正在被扩展，用于“理解”科学数据，包括DNA、蛋白质和化学结构的复杂语言。

本文强调了LLMs如何成为药物开发各阶段的重要工具。例如，它们可以帮助研究人员快速定位疾病的生物学原因，甚至提出新的药物靶点。LLMs还能从零设计新的药物分子，在合成之前预测其有效性和安全性，并简化临床试验的复杂流程，使之更高效。通过自动化和加速这些关键步骤，LLMs有潜力显著降低新药上市的时间和成本，从而彻底改变未来疗法的发现与开发模式。

疾病机制研究

理解疾病机制是药物发现的首要步骤，其主要目标是识别适合的药物靶点。该过程通常包括三个主要阶段（图3）：临床数据收集、靶点-疾病关联分析以及靶点验证。

临床数据收集：这一阶段包括患者数据的收集与亚群体划分，使得临床信息与多组学数据得以整合，从而帮助理解疾病差异以及不同患者群体中潜在的机制差异。
靶点-疾病关联：通过通路分析、基因表达谱以及实验手段（如CRISPR-Cas9和体内疾病建模）来建立潜在蛋白靶点与疾病之间的联系。
靶点验证：这是一个持续、迭代的过程，包括作用机制评估、治疗方式选择以及安全性和可行性分析，确保在进入研发后续阶段前靶点具备可靠性与可操作性。

基因组学分析

基因组学分析为疾病机制研究的早期阶段提供基础，尤其在临床数据收集与靶点-疾病关联阶段。大规模全基因组关联研究（GWAS）已识别出与多种疾病相关的重要基因组区域，这为靶点发现与疾病理解提供了方向。整合遗传学关联信息能显著提高临床靶点的成功率。

近年来，DNA-BERT、Nucleotide Transformer 和 HyenaDNA 等核苷酸级LLMs的出现，使得基因组信息能够以类似语言的方式被解读。这些模型通过“掩码语言建模”等方法，能够识别功能相关的变异（如SNPs、插入或缺失），并优先预测可能驱动疾病的遗传变体。此外，这些模型还能预测调控元件（如启动子、转录因子结合位点、剪接位点）以及表观遗传标记的功能变化，从而为疾病亚型驱动因子的识别提供支持。

RNA领域的LLMs（如RNA-FM、RNAErnie、RiNALMo）则提升了RNA结构与表达调控的功能分析，尤其在亚型划分与机制建模方面。它们能够预测RNA二级结构、识别剪接位点并对未见过的RNA家族表现出良好泛化性。总体而言，这些模型为研究遗传变异如何驱动疾病表型奠定了基础。

转录组学分析

在疾病机制研究中，转录组数据是理解细胞类型特异性基因表达变化的重要来源。单细胞测序和高通量测序的进展，使得研究人员能够以前所未有的分辨率研究细胞行为。然而，罕见疾病或不可获取组织的数据仍然有限，限制了模型的训练与泛化能力。

为解决这一问题，专门的转录组LLMs被开发出来：

Geneformer：通过“排序值编码”将单细胞转录组映射为基因序列，能够跨组织对比表达模式；并利用 in silico 基因敲除推断基因网络中的关键因子。
scGPT、scMulan、scFoundation：在单细胞多组学分析中表现突出，能够零样本生成细胞类型聚类，捕捉复杂的基因网络关系。
GeneCompass、scBERT、CellPLM：通过跨物种数据整合、批次效应校正和细胞-细胞互作建模，进一步提升了网络推断的精度。

这些模型支持患者分型、功能分析与靶点发现。例如，Geneformer能在仅884个细胞的条件下，识别出NOTCH1网络的关键因子，优于传统依赖3万细胞的分析方法。

蛋白靶点分析

蛋白质层面的分析是靶点验证的核心，用于评估候选靶点的结构、功能与可药性。LLMs在蛋白分析中主要涉及以下任务：

进化保守性分析：如ESM、Ankh、xTrimoPGLM等模型利用进化信号推断关键残基和功能位点。
蛋白质折叠预测：AlphaFold2/3、RosettaFold、RGN等模型能以接近实验精度预测三维结构，甚至扩展至蛋白-配体/核酸复合物。
功能注释：通过嵌入向量学习蛋白质功能，支持未表征蛋白的功能推断。
可药性评估：DockGPT、RosettaFold All-Atom等方法能预测结合位点、蛋白-配体相互作用以及突变对亲和力的影响。

这些能力大幅提升了靶点验证的效率。例如，AlphaFold3 能整合小分子、离子及修饰残基，提升蛋白-配体复合物预测的精度，为结构基础上的药物设计奠定基础。

通路分析

通路分析在靶点-疾病关联阶段至关重要，帮助研究人员将候选基因或变体与更广泛的生物功能和疾病路径联系起来。通用型LLMs凭借对科学文献和数据库的整合能力，能辅助组装基因调控网络、优先排序候选基因并生成新的假设。例如，GPT-4等模型已展示出自动生成基因网络代码、总结候选基因并进行文献验证的能力，体现了其在通路组装与假设生成中的潜力。

未来的模型需要实现动态、细胞类型特异的通路建模，支持因果推断，并将通路分析结果直接与临床疗法关联。

辅助作用

在整个疾病机制研究流程中，通用型LLMs作为跨学科助手发挥了关键作用。它们能够进行信息检索、跨模态结果综合、实时文献更新，并将复杂的技术内容转化为适合不同学科背景的解释。这种能力帮助研究人员在数据、解读和决策之间快速迭代，从而提升跨领域合作效率。

药物发现

药物发现过程包括若干关键步骤（图4）：初始命中化合物识别（hit identification）、从命中到先导化合物的转化（hit to lead）、先导化合物优化（lead optimization）以及临床前开发（preclinical development）。