AI+Drug 文献速递 | LLM4SD展示了LLMs在科学发现中的潜力，特别是在分子性质预测领域

MindDance

发布于 2026-01-08 11:16:16

2300

1. Large language models for scientific discovery in molecular property prediction

期刊：Nature Machine Intelligence

链接：https://www.nature.com/articles/s42256-025-00994-z

简介：本文提出了一种名为LLM4SD的框架，利用大语言模型（LLMs）在分子性质预测中推动科学发现，通过从文献中合成知识和从数据中推断知识，显著提升了预测性能。方法上，LLM4SD结合了LLMs的知识合成和推理能力，将分子转化为可解释的特征向量，并使用随机森林等可解释模型进行训练。实验在MoleculeNet数据集的58个基准任务上进行，涵盖生理学、生物物理学、物理化学和量子力学四个领域，结果显示LLM4SD在多个任务上超越了当前最先进的模型。总结来说，LLM4SD展示了LLMs在科学发现中的潜力，特别是在分子性质预测领域。

2. DTF-diffusion: A 3D equivariant diffusion generation model based on ligand-target information fusion

期刊：Computational Biology and Chemistry

链接：https://doi.org/10.1016/j.compbiolchem.2025.108392

简介：本文提出了一种基于配体-靶标信息融合的三维等变扩散生成模型DTF-diffusion，用于生成与靶标蛋白结合的药物分子，创新点在于通过多模态特征融合模块和化学规则判别模块，显著提高了生成分子的合理性和结合亲和力。方法上，DTF-diffusion利用扩散模型和非自回归方法，结合等变图神经网络，直接在连续三维空间中生成配体分子，并通过化学规则判别模块约束生成过程。实验基于CrossDocked2020数据集，生成了10000个配体分子，结果显示DTF-diffusion在药物相似性、合成可行性、键长分布和环结构分布等指标上优于现有基线方法，且生成的分子具有更高的对接分数和结合亲和力。总结而言，DTF-diffusion在药物分子生成领域表现出色，具有广泛的应用前景。

3. Drug–target affinity prediction using rotary encoding and information retention mechanisms

期刊：Engineering Applications of Artificial Intelligence

链接：https://doi.org/10.1016/j.engappai.2025.110239

简介：本文提出了一种基于旋转编码和信息保留机制的药物-靶标亲和力预测模型RRGDTA，创新点在于引入了多尺度交互模块（MSI）、旋转编码模块（ROE）和关联预测模块（APM），以增强药物和靶标之间的特征交互和信息保留。方法上，RRGDTA通过MT-CNN和MD-GNN分别提取蛋白质序列和药物分子图的结构信息，并结合旋转编码和因果掩码机制进行预测。实验在Davis、KIBA和BindingDB三个数据集上进行，结果表明RRGDTA在MSE、CI和R-Square等指标上均优于现有基线模型。总结而言，RRGDTA通过多模块协同工作，显著提升了药物-靶标亲和力预测的准确性和可靠性。

4. Leveraging AlphaFold2 Structural Space Exploration for Generating Drug Target Structures in Structure-Based Virtual Screening

期刊：bioRxiv

链接：https://doi.org/10.1101/2025.02.17.638740

简介：本文提出了一种通过修改AlphaFold2预测的蛋白质结构空间来生成更适合虚拟筛选（VS）的构象的方法，创新点在于通过引入丙氨酸突变和遗传算法优化，显著提高了虚拟筛选的准确性。方法上，通过修改多序列比对（MSA）中的关键残基，结合配体对接模拟和遗传算法或随机搜索策略，生成多样化的蛋白质构象。实验基于DUD-E数据集和ChemBL数据库，生成了1000多个预测结构，结果显示在CXCR4、CDK2、ABHD6和HIPK3等靶点上，该方法生成的构象比PDB结构和标准AlphaFold2预测更具优势，尤其在活性化合物数据充足时，遗传算法表现更佳。总结而言，该方法为基于AlphaFold2的虚拟筛选提供了一种有效的结构优化策略，尤其适用于实验结构不足的靶点。

5. Increase Docking Score Screening Power by Simple Fusion With CNNscore

期刊：J Comput Chem

链接：https://doi.org/10.1002/jcc.70060

简介：本文提出了一种通过将传统分子对接评分函数与基于深度学习的CNNscore简单融合来提高虚拟筛选能力的新策略，创新点在于显著提升了筛选效率和准确性。方法上，作者将GNINA的卷积神经网络生成的pose分数与传统对接分数相乘，形成融合评分。实验在多个数据集（如CASF、DUD-E、LIT-PCBA）上验证了该方法的有效性，特别是在TYK2 JH2靶点的虚拟筛选中，成功筛选出两个具有潜在抑制活性的化合物（IC50分别为9.99μM和13.76μM）。总结而言，该融合评分策略在虚拟筛选中表现出色，有望加速药物发现进程。

6. Identification of metabolite-disease associations based on knowledge graph

期刊：Metabolomics

链接：https://doi.org/10.1007/s11306-025-02227-1

简介：本文提出了一种基于知识图谱和随机森林算法的COM-RAN模型，用于预测代谢物与疾病之间的潜在关联，创新点在于通过知识图谱嵌入特征和随机森林分类器，显著提高了预测的准确性和可解释性。方法上，首先整合了HMDB和CTD数据库中的代谢物-疾病关联数据，构建知识图谱，并使用ComplEx算法进行嵌入学习，最后通过随机森林模型进行预测。实验基于HMDB 5.0和CTD数据集，通过5折交叉验证和冷启动实验，结果显示COM-RAN在AUC和AUPR指标上分别达到0.968和0.901，优于现有大多数方法。总结而言，COM-RAN模型在代谢物-疾病关联预测中表现出色，尤其在数据稀缺情况下仍能保持高精度和稳定性，具有广泛的应用前景。

7. Lab-in-the-loop therapeutic antibody design with deep learning

期刊：bioRxiv

链接：https://doi.org/10.1101/2025.02.19.639050

简介：本文提出了一种名为“Lab-in-the-loop”（LitL）的新型抗体设计范式，通过结合生成式机器学习模型、多任务属性预测器、主动学习排序与选择以及体外实验，实现了半自动化的迭代优化循环，显著提升了抗体设计的效率和效果。该方法利用生成模型生成抗体变体库，通过属性预测模型进行排序和选择，并在实验室中进行体外实验验证，最终将实验数据反馈给模型进行再训练。实验针对EGFR、IL-6、HER2和OSM四个临床相关抗原目标，设计了超过1800个独特的抗体变体，并通过四轮迭代优化，获得了3-100倍结合力提升的抗体，其中最佳结合力达到100 pM范围。LitL系统展示了其在多属性优化和跨抗原目标设计中的强大泛化能力，为抗体药物发现提供了新的工具。

8. IIB-DDI: Invariant Information Bottle Theory for Out-of-Distribution Drug-Drug Interaction Prediction

期刊：IEEE Transactions on Computational Biology and Bioinformatics

链接：https://doi.org/10.1109/TCBBIO.2025.3543884

简介：本文提出了一种基于不变信息瓶颈理论（IIB-DDI）的框架，用于预测分布外药物-药物相互作用（DDI），其创新点在于通过引入不变学习理论，提取不变的核心子图，并结合环境码本优化互信息，从而提升模型的泛化能力。方法上，首先利用信息瓶颈理论提取药物对的核心子图，然后通过向量量化设计环境码本，将潜在环境聚类为指定类别，最后在不同潜在环境因素下定位提取的核心子图，以获得不变的核心子结构。实验在ZhangDDI、ChChMiner和DEEPDDI三个真实世界DDI数据集上进行，结果表明IIB-DDI在准确性和泛化能力上均优于现有方法。总结而言，IIB-DDI通过不变学习和环境码本的引入，有效提升了DDI预测的鲁棒性和泛化性能。

9. RAG-Enhanced Collaborative LLM Agents for Drug Discovery

期刊：arXiv

链接：https://arxiv.org/abs/2502.17506

简介：本文提出了一种名为CLADD的多智能体框架，通过检索增强生成（RAG）技术，结合多个大型语言模型（LLM）智能体，动态整合外部生物医学知识库，解决了药物发现任务中数据异构性和多源整合的挑战。该方法无需领域特定的微调，通过规划团队、知识图谱团队和分子理解团队的协作，灵活处理多样化任务。实验表明，CLADD在分子描述、药物靶点预测和毒性预测等任务中，均优于通用和领域特定的LLM以及传统深度学习方法，尤其在零样本设置下表现突出。总结而言，CLADD通过多智能体协作和外部知识的动态整合，显著提升了药物发现的效率和可解释性。

10. Survey on Recent Progress of AI for Chemistry: Methods, Applications, and Opportunities

期刊：arXiv

链接：https://arxiv.org/abs/2502.17456

简介：本文全面回顾了人工智能在化学领域的应用进展，重点介绍了数据来源、表示方法和模型设计，并探讨了化学中AI技术的关键挑战。文章通过数据驱动的方法，结合分子指纹、图神经网络（GNN）和Transformer等表示方法，解决了化学数据异构性和多源整合的问题。实验部分使用了包括QM9、BBBP、Tox21等广泛认可的数据集，展示了AI在分子设计、反应预测和化学机器人中的应用效果。总结表明，AI技术为化学研究提供了新的范式，但仍面临数据稀缺、数据偏差和模型可解释性等挑战。

11. MuCoS: Efficient Drug-Target Prediction through Multi-Context-Aware Sampling

期刊：arXiv

链接：https://arxiv.org/abs/2502.17784

简介：本文提出了一种名为MuCoS的多上下文感知采样方法，通过结合BERT模型，显著提升了药物-靶点相互作用预测的准确性和效率。该方法通过优化邻居采样，减少了计算复杂度，并避免了负样本采样的需求，从而在预测未见实体和关系时表现更优。实验在KEGG50k生物医学数据集上进行，结果显示MuCoS在MRR、Hits@1、Hits@3和Hits@10等指标上均优于现有模型，特别是在药物-靶点关系预测上表现尤为突出。总体而言，MuCoS在减少计算成本的同时，显著提升了预测性能，为药物发现提供了有力支持。

12. Neural Graph Matching Improves Retrieval Augmented Generation in Molecular Machine Learning

期刊：arXiv

链接：https://arxiv.org/abs/2502.17874

简介：本文提出了一种基于神经图匹配的检索增强生成框架MARASON，用于提升分子机器学习中的质谱模拟任务，创新性地将神经图匹配引入分子结构对齐，显著提高了预测精度。方法上，MARASON通过检索与目标分子结构相似的参考分子，利用神经图匹配模块对齐目标分子和参考分子的碎片化有向无环图（DAG），并结合参考光谱信息进行强度预测。实验在NIST（2020）数据集上进行，结果表明MARASON在质谱模拟任务中达到了28%的Top-1准确率，较非检索增强的现有技术（19%）有显著提升，且优于传统的图匹配方法。总结而言，MARASON通过神经图匹配和检索增强生成，为分子机器学习中的质谱模拟任务提供了新的解决方案。

13. ExPath: Towards Explaining Targeted Pathways for Biological Knowledge Bases

期刊：arXiv

链接：https://arxiv.org/abs/2502.18026

简介：这篇论文提出了一种名为ExPath的新框架，通过图学习和解释技术，从生物知识库中推断出目标路径，创新地结合了实验数据（如氨基酸序列）和图神经网络（GNN）来分类生物网络，并识别出对分类贡献最大的路径。方法上，ExPath包括三个核心组件：一个大型蛋白质语言模型（pLM）用于编码氨基酸序列，PathMamba结合GNN和状态空间序列建模（Mamba）来捕捉局部和全局路径依赖，以及PathExplainer通过可训练的路径掩码识别功能关键节点和边。实验使用了KEGG数据库中的301个生物网络进行评估，结果表明ExPath推断的路径具有生物学意义，并且在分类和解释任务中表现优异。总结来说，ExPath为生物网络推断提供了一种有效且可解释的框架，能够更好地理解特定实验数据下的生物路径。

14. Broadening Discovery through Structural Models: Multimodal Combination of Local and Structural Properties for Predicting Chemical Features

期刊：arXiv

链接：https://arxiv.org/abs/2502.17986

简介：本文提出了一种结合指纹语言模型和图模型的双模态架构，显著提升了化学特征预测的性能。该方法通过将RoBERTa语言模型与图卷积网络（GCN）、图同构网络（GIN）和Graphormer等图模型结合，利用指纹和图结构信息进行联合训练。实验在PubChem和ZINC数据集上进行预训练，并在多个QSAR基准数据集（如BBBP、Tox21、QM7、QM8等）上评估，结果显示双模态模型在分类和回归任务中均优于现有方法。该研究为化学信息学中的多任务学习提供了新的框架，展示了其在复杂化学任务中的潜力。

15. Protein Large Language Models: A Comprehensive Survey

期刊：arXiv

链接：https://arxiv.org/abs/2502.17504

简介：本文首次全面综述了蛋白质大语言模型（Protein LLMs），涵盖其架构、训练数据集、评估指标及多样化应用，创新性地提出了结构化分类法，并分析了如何利用大规模蛋白质序列数据提升准确性，探索了其在蛋白质工程和生物医学研究中的潜力。文章通过系统分析100多篇文献，详细介绍了蛋白质序列模型、结构集成模型、知识增强模型以及蛋白质描述与注释模型，并讨论了关键挑战和未来方向。实验部分使用了UniProtKB、Pfam、PDB等数据集进行预训练和基准测试，结果表明Protein LLMs在蛋白质折叠预测、功能注释和设计方面表现出色。总结指出，Protein LLMs已成为蛋白质科学中不可或缺的工具，推动了科学发现的进程。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-26，如有侵权请联系 cloudcommunity@tencent.com 删除

数据