
1. Large language models for scientific discovery in molecular property prediction
期刊:Nature Machine Intelligence
链接:https://www.nature.com/articles/s42256-025-00994-z
简介:本文提出了一种名为LLM4SD的框架,利用大语言模型(LLMs)在分子性质预测中推动科学发现,通过从文献中合成知识和从数据中推断知识,显著提升了预测性能。方法上,LLM4SD结合了LLMs的知识合成和推理能力,将分子转化为可解释的特征向量,并使用随机森林等可解释模型进行训练。实验在MoleculeNet数据集的58个基准任务上进行,涵盖生理学、生物物理学、物理化学和量子力学四个领域,结果显示LLM4SD在多个任务上超越了当前最先进的模型。总结来说,LLM4SD展示了LLMs在科学发现中的潜力,特别是在分子性质预测领域。
2. DTF-diffusion: A 3D equivariant diffusion generation model based on ligand-target information fusion
期刊:Computational Biology and Chemistry
链接:https://doi.org/10.1016/j.compbiolchem.2025.108392
简介:本文提出了一种基于配体-靶标信息融合的三维等变扩散生成模型DTF-diffusion,用于生成与靶标蛋白结合的药物分子,创新点在于通过多模态特征融合模块和化学规则判别模块,显著提高了生成分子的合理性和结合亲和力。方法上,DTF-diffusion利用扩散模型和非自回归方法,结合等变图神经网络,直接在连续三维空间中生成配体分子,并通过化学规则判别模块约束生成过程。实验基于CrossDocked2020数据集,生成了10000个配体分子,结果显示DTF-diffusion在药物相似性、合成可行性、键长分布和环结构分布等指标上优于现有基线方法,且生成的分子具有更高的对接分数和结合亲和力。总结而言,DTF-diffusion在药物分子生成领域表现出色,具有广泛的应用前景。
3. Drug–target affinity prediction using rotary encoding and information retention mechanisms
期刊:Engineering Applications of Artificial Intelligence
链接:https://doi.org/10.1016/j.engappai.2025.110239
简介:本文提出了一种基于旋转编码和信息保留机制的药物-靶标亲和力预测模型RRGDTA,创新点在于引入了多尺度交互模块(MSI)、旋转编码模块(ROE)和关联预测模块(APM),以增强药物和靶标之间的特征交互和信息保留。方法上,RRGDTA通过MT-CNN和MD-GNN分别提取蛋白质序列和药物分子图的结构信息,并结合旋转编码和因果掩码机制进行预测。实验在Davis、KIBA和BindingDB三个数据集上进行,结果表明RRGDTA在MSE、CI和R-Square等指标上均优于现有基线模型。总结而言,RRGDTA通过多模块协同工作,显著提升了药物-靶标亲和力预测的准确性和可靠性。
4. Leveraging AlphaFold2 Structural Space Exploration for Generating Drug Target Structures in Structure-Based Virtual Screening
期刊:bioRxiv
链接:https://doi.org/10.1101/2025.02.17.638740
简介:本文提出了一种通过修改AlphaFold2预测的蛋白质结构空间来生成更适合虚拟筛选(VS)的构象的方法,创新点在于通过引入丙氨酸突变和遗传算法优化,显著提高了虚拟筛选的准确性。方法上,通过修改多序列比对(MSA)中的关键残基,结合配体对接模拟和遗传算法或随机搜索策略,生成多样化的蛋白质构象。实验基于DUD-E数据集和ChemBL数据库,生成了1000多个预测结构,结果显示在CXCR4、CDK2、ABHD6和HIPK3等靶点上,该方法生成的构象比PDB结构和标准AlphaFold2预测更具优势,尤其在活性化合物数据充足时,遗传算法表现更佳。总结而言,该方法为基于AlphaFold2的虚拟筛选提供了一种有效的结构优化策略,尤其适用于实验结构不足的靶点。
5. Increase Docking Score Screening Power by Simple Fusion With CNNscore
期刊:J Comput Chem
链接:https://doi.org/10.1002/jcc.70060
简介:本文提出了一种通过将传统分子对接评分函数与基于深度学习的CNNscore简单融合来提高虚拟筛选能力的新策略,创新点在于显著提升了筛选效率和准确性。方法上,作者将GNINA的卷积神经网络生成的pose分数与传统对接分数相乘,形成融合评分。实验在多个数据集(如CASF、DUD-E、LIT-PCBA)上验证了该方法的有效性,特别是在TYK2 JH2靶点的虚拟筛选中,成功筛选出两个具有潜在抑制活性的化合物(IC50分别为9.99μM和13.76μM)。总结而言,该融合评分策略在虚拟筛选中表现出色,有望加速药物发现进程。
6. Identification of metabolite-disease associations based on knowledge graph
期刊:Metabolomics
链接:https://doi.org/10.1007/s11306-025-02227-1
简介:本文提出了一种基于知识图谱和随机森林算法的COM-RAN模型,用于预测代谢物与疾病之间的潜在关联,创新点在于通过知识图谱嵌入特征和随机森林分类器,显著提高了预测的准确性和可解释性。方法上,首先整合了HMDB和CTD数据库中的代谢物-疾病关联数据,构建知识图谱,并使用ComplEx算法进行嵌入学习,最后通过随机森林模型进行预测。实验基于HMDB 5.0和CTD数据集,通过5折交叉验证和冷启动实验,结果显示COM-RAN在AUC和AUPR指标上分别达到0.968和0.901,优于现有大多数方法。总结而言,COM-RAN模型在代谢物-疾病关联预测中表现出色,尤其在数据稀缺情况下仍能保持高精度和稳定性,具有广泛的应用前景。
7. Lab-in-the-loop therapeutic antibody design with deep learning
期刊:bioRxiv
链接:https://doi.org/10.1101/2025.02.19.639050
简介:本文提出了一种名为“Lab-in-the-loop”(LitL)的新型抗体设计范式,通过结合生成式机器学习模型、多任务属性预测器、主动学习排序与选择以及体外实验,实现了半自动化的迭代优化循环,显著提升了抗体设计的效率和效果。该方法利用生成模型生成抗体变体库,通过属性预测模型进行排序和选择,并在实验室中进行体外实验验证,最终将实验数据反馈给模型进行再训练。实验针对EGFR、IL-6、HER2和OSM四个临床相关抗原目标,设计了超过1800个独特的抗体变体,并通过四轮迭代优化,获得了3-100倍结合力提升的抗体,其中最佳结合力达到100 pM范围。LitL系统展示了其在多属性优化和跨抗原目标设计中的强大泛化能力,为抗体药物发现提供了新的工具。
8. IIB-DDI: Invariant Information Bottle Theory for Out-of-Distribution Drug-Drug Interaction Prediction
期刊:IEEE Transactions on Computational Biology and Bioinformatics
链接:https://doi.org/10.1109/TCBBIO.2025.3543884
简介:本文提出了一种基于不变信息瓶颈理论(IIB-DDI)的框架,用于预测分布外药物-药物相互作用(DDI),其创新点在于通过引入不变学习理论,提取不变的核心子图,并结合环境码本优化互信息,从而提升模型的泛化能力。方法上,首先利用信息瓶颈理论提取药物对的核心子图,然后通过向量量化设计环境码本,将潜在环境聚类为指定类别,最后在不同潜在环境因素下定位提取的核心子图,以获得不变的核心子结构。实验在ZhangDDI、ChChMiner和DEEPDDI三个真实世界DDI数据集上进行,结果表明IIB-DDI在准确性和泛化能力上均优于现有方法。总结而言,IIB-DDI通过不变学习和环境码本的引入,有效提升了DDI预测的鲁棒性和泛化性能。
9. RAG-Enhanced Collaborative LLM Agents for Drug Discovery
期刊:arXiv
链接:https://arxiv.org/abs/2502.17506
简介:本文提出了一种名为CLADD的多智能体框架,通过检索增强生成(RAG)技术,结合多个大型语言模型(LLM)智能体,动态整合外部生物医学知识库,解决了药物发现任务中数据异构性和多源整合的挑战。该方法无需领域特定的微调,通过规划团队、知识图谱团队和分子理解团队的协作,灵活处理多样化任务。实验表明,CLADD在分子描述、药物靶点预测和毒性预测等任务中,均优于通用和领域特定的LLM以及传统深度学习方法,尤其在零样本设置下表现突出。总结而言,CLADD通过多智能体协作和外部知识的动态整合,显著提升了药物发现的效率和可解释性。
10. Survey on Recent Progress of AI for Chemistry: Methods, Applications, and Opportunities
期刊:arXiv
链接:https://arxiv.org/abs/2502.17456
简介:本文全面回顾了人工智能在化学领域的应用进展,重点介绍了数据来源、表示方法和模型设计,并探讨了化学中AI技术的关键挑战。文章通过数据驱动的方法,结合分子指纹、图神经网络(GNN)和Transformer等表示方法,解决了化学数据异构性和多源整合的问题。实验部分使用了包括QM9、BBBP、Tox21等广泛认可的数据集,展示了AI在分子设计、反应预测和化学机器人中的应用效果。总结表明,AI技术为化学研究提供了新的范式,但仍面临数据稀缺、数据偏差和模型可解释性等挑战。
11. MuCoS: Efficient Drug-Target Prediction through Multi-Context-Aware Sampling
期刊:arXiv
链接:https://arxiv.org/abs/2502.17784
简介:本文提出了一种名为MuCoS的多上下文感知采样方法,通过结合BERT模型,显著提升了药物-靶点相互作用预测的准确性和效率。该方法通过优化邻居采样,减少了计算复杂度,并避免了负样本采样的需求,从而在预测未见实体和关系时表现更优。实验在KEGG50k生物医学数据集上进行,结果显示MuCoS在MRR、Hits@1、Hits@3和Hits@10等指标上均优于现有模型,特别是在药物-靶点关系预测上表现尤为突出。总体而言,MuCoS在减少计算成本的同时,显著提升了预测性能,为药物发现提供了有力支持。
12. Neural Graph Matching Improves Retrieval Augmented Generation in Molecular Machine Learning
期刊:arXiv
链接:https://arxiv.org/abs/2502.17874
简介:本文提出了一种基于神经图匹配的检索增强生成框架MARASON,用于提升分子机器学习中的质谱模拟任务,创新性地将神经图匹配引入分子结构对齐,显著提高了预测精度。方法上,MARASON通过检索与目标分子结构相似的参考分子,利用神经图匹配模块对齐目标分子和参考分子的碎片化有向无环图(DAG),并结合参考光谱信息进行强度预测。实验在NIST(2020)数据集上进行,结果表明MARASON在质谱模拟任务中达到了28%的Top-1准确率,较非检索增强的现有技术(19%)有显著提升,且优于传统的图匹配方法。总结而言,MARASON通过神经图匹配和检索增强生成,为分子机器学习中的质谱模拟任务提供了新的解决方案。
13. ExPath: Towards Explaining Targeted Pathways for Biological Knowledge Bases
期刊:arXiv
链接:https://arxiv.org/abs/2502.18026
简介:这篇论文提出了一种名为ExPath的新框架,通过图学习和解释技术,从生物知识库中推断出目标路径,创新地结合了实验数据(如氨基酸序列)和图神经网络(GNN)来分类生物网络,并识别出对分类贡献最大的路径。方法上,ExPath包括三个核心组件:一个大型蛋白质语言模型(pLM)用于编码氨基酸序列,PathMamba结合GNN和状态空间序列建模(Mamba)来捕捉局部和全局路径依赖,以及PathExplainer通过可训练的路径掩码识别功能关键节点和边。实验使用了KEGG数据库中的301个生物网络进行评估,结果表明ExPath推断的路径具有生物学意义,并且在分类和解释任务中表现优异。总结来说,ExPath为生物网络推断提供了一种有效且可解释的框架,能够更好地理解特定实验数据下的生物路径。
14. Broadening Discovery through Structural Models: Multimodal Combination of Local and Structural Properties for Predicting Chemical Features
期刊:arXiv
链接:https://arxiv.org/abs/2502.17986
简介:本文提出了一种结合指纹语言模型和图模型的双模态架构,显著提升了化学特征预测的性能。该方法通过将RoBERTa语言模型与图卷积网络(GCN)、图同构网络(GIN)和Graphormer等图模型结合,利用指纹和图结构信息进行联合训练。实验在PubChem和ZINC数据集上进行预训练,并在多个QSAR基准数据集(如BBBP、Tox21、QM7、QM8等)上评估,结果显示双模态模型在分类和回归任务中均优于现有方法。该研究为化学信息学中的多任务学习提供了新的框架,展示了其在复杂化学任务中的潜力。
15. Protein Large Language Models: A Comprehensive Survey
期刊:arXiv
链接:https://arxiv.org/abs/2502.17504
简介:本文首次全面综述了蛋白质大语言模型(Protein LLMs),涵盖其架构、训练数据集、评估指标及多样化应用,创新性地提出了结构化分类法,并分析了如何利用大规模蛋白质序列数据提升准确性,探索了其在蛋白质工程和生物医学研究中的潜力。文章通过系统分析100多篇文献,详细介绍了蛋白质序列模型、结构集成模型、知识增强模型以及蛋白质描述与注释模型,并讨论了关键挑战和未来方向。实验部分使用了UniProtKB、Pfam、PDB等数据集进行预训练和基准测试,结果表明Protein LLMs在蛋白质折叠预测、功能注释和设计方面表现出色。总结指出,Protein LLMs已成为蛋白质科学中不可或缺的工具,推动了科学发现的进程。