
1. A Multi-Task Self-Supervised Strategy for Predicting Molecular Properties and FGFR1 Inhibitors
期刊:Adv. Sci.
链接:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202412987
简介:本文提出了一种多任务自监督深度学习框架MTSSMol,通过图神经网络和大规模无标签分子数据预训练,显著提升了分子性质预测和药物发现的效率与准确性,其创新点在于结合多标签分类和掩码对比学习策略以增强分子表示学习。方法上,MTSSMol利用图同构网络提取分子特征,并通过两种预训练策略优化表示能力。实验在MoleculeNet、TDC等27个数据集上完成,涵盖分子性质预测、药物代谢、FGFR1抑制剂识别等任务,结果表明MTSSMol在分类和回归任务中均优于现有方法,并通过分子对接和动力学模拟验证了其在FGFR1抑制剂发现中的实用性。研究为加速药物发现提供了高效且可靠的计算工具。
2. ChemBERTaDDI: Transforming Drug-Drug Interaction Prediction with Transformers and Clinical Insights
期刊:ChemRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.01.22.634309v1
简介:本文提出了一种基于Transformer和临床数据的药物相互作用预测框架ChemBERTaDDI,创新性地结合了化学分子表示和临床副作用特征,显著提升了预测性能。该方法通过将ChemBERTa-77M-MLM生成的化学嵌入与药物单副作用特征结合,输入多层神经网络进行二分类预测。实验在TWOSIDES、SIDER和OFFSIDES数据集上进行,结果显示ChemBERTaDDI在F1得分(0.94)和AUROC(0.97)上优于现有方法,如Decagon和NNPS。研究表明,结合化学和临床特征能够有效提升药物相互作用预测的准确性,而仅依赖化学特征则效果有限。
3. DHAG-DTA: Dynamic Hierarchical Affinity Graph Model for Drug-Target Binding Affinity Prediction
期刊:IEEE/ACM Transactions on Computational Biology and Bioinformatics
链接:https://ieeexplore.ieee.org/document/10847908
简介:本文提出了一种动态层次亲和图模型DHAG-DTA,用于预测药物-靶标结合亲和力,创新性地通过动态优化亲和图结构和融合分子相似性嵌入,显著提升了预测性能。该方法通过构建双层图结构,结合分子内和分子间信息,并引入未标记边和最大熵准则动态更新亲和图,同时利用分子相似性网络解决冷启动问题。实验在Davis和KIBA数据集上进行,结果显示DHAG-DTA在多种评估指标上均优于现有方法,特别是在冷启动场景下表现尤为突出。研究表明,动态优化亲和图结构和融合相似性嵌入能够有效提升药物-靶标结合亲和力预测的准确性和泛化能力。
4. Probability Guided Chemical Reaction Scopes
期刊:ChemRxiv
链接:https://chemrxiv.org/engage/chemrxiv/article-details/67a66bde6dde43c908fb7a13
简介:本文提出了一种基于概率的分类方法,用于预测新底物在已知反应中的适用条件,创新点在于通过小数据集实现对反应条件的精准分类和预测。研究采用逻辑回归模型结合分子特征提取(如电子和空间特性),并利用RDKit片段描述符优化分类性能,实验涵盖三个案例(芳香醛氘化、钴催化氢同位素交换和吡啶卤化),分别使用了文献数据和自建数据集,验证结果显示模型准确率高达92%-100%。该方法为化学反应条件的筛选提供了高效工具,尤其适用于复杂分子的后期合成,同时强调了报告“失败反应”的重要性以推动数据驱动的化学研究。
5. SVCPI: a Soft Voting Ensemble-Based Model for Compound-Protein Interaction Prediction
期刊:IEEE/ACM Transactions on Computational Biology and Bioinformatics
链接:https://ieeexplore.ieee.org/document/10876594
简介:该论文提出了一种基于软投票集成学习的模型SVCPI,用于预测化合物与蛋白质的相互作用(CPI),其创新点在于通过软投票策略整合了基于图卷积网络(GCN)特征和分子指纹特征的基础分类器,显著提升了预测性能。方法上,SVCPI利用GCN和分子指纹分别提取化合物特征,并通过多层感知器(MLP)提取蛋白质序列特征,最后通过软投票机制集成两个基础分类器的预测结果。实验在五个基准数据集(Human、C.elegans、BindingDB、GPCRs和Kinases)上进行,结果表明SVCPI在AUC、精确度和召回率等指标上均优于传统机器学习方法和现有的最先进方法,尤其在Kinases数据集上,AUC-ROC和AUC-PR分别提升了超过10%和20%。总结而言,SVCPI为CPI预测任务提供了一种高效且可行的解决方案,具有广泛的应用前景。
6. Mol-MoE: Training Preference-Guided Routers for Molecule Generation
期刊:arXiv
链接:https://arxiv.org/abs/2502.05633
简介:该论文提出了一种基于混合专家(MoE)架构的分子生成模型Mol-MoE,通过偏好引导的路由器训练,实现了在测试时无需重新训练即可高效引导分子生成,解决了传统多目标强化学习(MORL)方法在探索目标权衡时的计算成本问题。方法上,Mol-MoE利用偏好引导的路由器训练目标,动态组合专家模型以适应用户指定的目标权衡,从而在化学属性空间中实现更灵活的探索。实验在多个分子生成任务上进行,结果表明Mol-MoE在样本质量和可引导性方面优于现有最先进方法,尤其在Kinases数据集上表现突出。总结而言,Mol-MoE为分子生成任务提供了一种高效且灵活的解决方案,显著提升了多目标优化的能力。
7. Generating 3D Binding Molecules Using Shape-Conditioned Diffusion Models with Guidance
期刊:arXiv
链接:https://arxiv.org/abs/2502.06027
简介:本文提出了一种名为DiffSMol的生成式人工智能方法,用于基于已知配体形状生成具有高结合亲和力和真实3D结构的分子,创新点在于结合形状引导和口袋引导优化分子生成。该方法利用预训练的形状嵌入和扩散模型生成分子,并通过迭代调整优化其几何特性。实验在MOSES和CrossDocked2020数据集上验证,结果表明DiffSMol在形状相似性和结合亲和力方面显著优于现有方法,例如在结合亲和力任务中比最佳基线提升17.7%。研究展示了DiffSMol在药物开发中的潜力,同时指出未来可进一步探索多目标优化和体外验证以完善其应用。
8. Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language
期刊:arXiv
链接:https://arxiv.org/abs/2502.06634
简介:本文提出了一种名为LA3的自动注释增强框架,通过利用大型语言模型重写分子数据集的注释,显著提升了分子与自然语言之间的翻译性能。该方法基于CHEBI-20数据集生成增强版LACHEBI-20,并使用MOLT5架构训练LAMOLT5模型,在文本生成分子和分子描述任务中分别实现高达301%和9.51%的性能提升。实验涵盖多个任务,包括分子生成、分子描述、图像字幕和图属性预测,使用了ogbg-molbace、ogbg-molhiv、ogbg-molesol和CC3M等数据集,结果表明LA3在多样任务中均具显著优势。研究表明,LA3是一种高效且通用的数据增强工具,为生物医学领域的AI研究提供了重要支持。
9. HODDI: A Dataset of High-Order Drug-Drug Interactions for Computational Pharmacovigilance
期刊:arXiv
链接:https://arxiv.org/abs/2502.06274v1
简介:本文提出了一种名为HODDI的高阶药物相互作用数据集,通过从FAERS数据库中提取和标准化多药物组合及其副作用信息,为药物安全研究提供了重要资源。方法上,利用SapBERT生成副作用嵌入并通过余弦相似性匹配标准化术语,同时结合DrugBank ID映射药物名称,并采用超图神经网络(如HyGNN)建模高阶关系。实验基于HODDI数据集的三个子集展开,结果表明HGNN-SA模型在Precision、F1、AUC等指标上显著优于传统方法,证明了数据集对复杂药物交互建模的价值。研究表明,HODDI为药物相互作用预测和个性化医学研究奠定了坚实基础。
10. Known Unknowns: Out-of-Distribution Property Prediction in Materials and Molecules
期刊:arXiv
链接:https://www.arxiv.org/abs/2502.05970
简介:本文提出了一种基于双线性转导(Bilinear Transduction)的方法,用于材料和分子的分布外(out-of-distribution, ood)性质预测,显著提升了高价值候选物筛选的精度。该方法通过学习材料或分子表示差异与性质变化之间的关系实现零样本外推。实验在固体材料数据集(AFLOW、Matbench、Materials Project)和分子数据集(MoleculeNet)上完成,结果表明其在ood分类中的真正率(TPR)分别提升了3倍和2.5倍,精度提升2倍和1.5倍。这一方法为加速高性能材料和分子的发现提供了新工具。
11. Uncertainty-Aware Adaptation of Large Language Models for Protein-Protein Interaction Analysis
期刊:arXiv
链接:https://arxiv.org/abs/2502.06173
简介:本文提出了一种基于不确定性感知的大型语言模型(LLM)适应方法,用于蛋白质-蛋白质相互作用(PPI)分析,在疾病相关研究中具有重要意义。通过结合LoRA集成和贝叶斯LoRA技术,改进了LLaMA-3和BioMedGPT模型在PPI预测中的准确性和可靠性。实验使用了ND-PPI、M-PPI和C-PPI三个公开数据集,结果表明LoRA集成在预测准确性上表现最佳,而贝叶斯LoRA在校准性能上更优。该研究为生物医学领域的精准预测提供了高效且可靠的计算工具。
12. Teacher-student training improves accuracy and efficiency of machine learning inter-atomic potentials
期刊:arXiv
链接:https://arxiv.org/abs/2502.05379
简介:本文提出了一种教师-学生训练框架,通过利用教师模型的局部原子能量信息提升轻量级学生机器学习原子间势(MLIP)的效率和精度,其创新点在于无需额外量子化学数据即可显著降低计算成本并提高性能。方法上,教师模型在量子化学数据集上预训练后生成辅助目标,学生模型则结合原始数据和辅助目标进行训练。实验基于ANI-Al铝数据集,采用HIPNN架构,结果表明学生模型在相同计算资源下超越教师模型的精度,并在MD模拟中表现出更快的速度和更低的内存需求。研究表明该框架可广泛应用于其他MLIP模型,为大规模分子动力学模拟提供了高效解决方案。
13. KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment
期刊:arXiv
链接:https://arxiv.org/abs/2502.06472
简介:论文提出了一种名为KARMA的多智能体框架,利用大型语言模型自动化从科学文献中提取和整合知识图谱,显著提升了知识图谱扩展的效率和准确性。该方法通过九个协作智能体分别负责实体发现、关系抽取、模式对齐和冲突解决等任务,并采用领域自适应提示策略确保高精度。实验基于来自PubMed的1200篇论文(涵盖基因组学、蛋白质组学和代谢组学三个领域),使用GLM-4、GPT-4o和DeepSeek-v3三种语言模型作为骨干,结果表明KARMA在基因组学领域识别出多达38,230个新实体,LLM验证正确率达83.1%,并减少18.6%的冲突边。研究证明了多智能体协作在复杂知识提取任务中的优越性,为大规模知识图谱构建提供了高效解决方案。
14. Graph-based Molecular In-context Learning Grounded on Morgan Fingerprints
期刊:arXiv
链接:https://arxiv.org/abs/2502.05414v1
简介:本文提出了一种名为GAMIC的新型分子上下文学习方法,通过结合图神经网络和Morgan指纹实现分子结构与文本描述的对齐,在多种分子任务中显著优于现有方法。GAMIC利用图编码器捕获分子全局结构,并通过最大边际相关性(MMR)选择多样且相关的示例优化提示输入。实验在ChEBI-20、PubChem、Suzuki-Miyaura等数据集上完成,结果表明GAMIC在分子描述、属性预测和产率预测任务中均达到最佳性能,平均提升高达45%。该研究为小至中型语言模型在分子分析中的应用提供了高效且灵活的解决方案。
15. WyckoffDiff - A Generative Diffusion Model for Crystal Symmetry
期刊:arXiv
链接:https://arxiv.org/abs/2502.06485
简介:本文提出了一种名为WyckoffDiff的生成扩散模型,通过结合晶体对称性描述和新颖的神经网络架构,实现了高效生成具有高对称性的晶体结构。该方法利用离散扩散模型和图神经网络(GNN)设计了WyckoffGNN架构,将晶体表示为包含空间群和Wyckoff位置的离散变量,并通过去噪过程生成材料。实验基于WBM和Materials Project数据集,采用新提出的Fréchet Wrenformer距离(FWD)等指标评估生成材料的质量,结果表明WyckoffDiff在生成新颖且物理合理的晶体结构方面优于现有方法,并成功预测了多个稳定材料(如CsSnF6)。研究表明,WyckoffDiff在材料发现中具有重要应用潜力,特别是在生成高对称性晶体结构方面表现突出。
16. Scaling Graph Neural Networks to Large Proteins
期刊:Journal of Chemical Theory and Computation
链接:https://pubs.acs.org/doi/abs/10.1021/acs.jctc.4c01420
简介:本文提出了一种名为Schake的新型多尺度图神经网络(GNN)架构,用于高效且可扩展的大蛋白质能量和力预测,创新性地结合了SAKE和SchNet层以兼顾短程精度与长程信息。研究通过DISPEF数据集(包括DISPEF-S、DISPEF-M、DISPEF-L和DISPEF-c子集)对多种GNN架构进行基准测试,重点评估其在生物相关大分子上的性能,并使用AlphaFold2预测的蛋白质结构和GBn2隐式溶剂模型生成目标数据。实验结果表明,Schake在所有测试集上均优于现有模型,尤其在力预测和跨蛋白质大小的迁移能力方面表现突出。该研究为开发适用于蛋白质模拟的高效机器学习力场提供了重要工具和见解。
17. Advancing Drug Discovery with Enhanced Chemical Understanding via Asymmetric Contrastive Multimodal Learning
期刊:arXiv
链接:https://arxiv.org/abs/2311.06456
简介:本文提出了一种名为非对称对比多模态学习(ACML)的新方法,旨在通过多模态对比学习提升分子表示学习,从而加速药物发现。该方法通过将分子图与其他化学模态(如SMILES、图像、NMR谱等)进行非对称对比学习,将不同模态的化学语义信息传递到分子图表示中,增强了图神经网络的表达能力和可解释性。实验表明,ACML在大规模跨模态检索、异构体识别以及分子性质预测任务中表现出色,特别是在MoleculeNet和Therapeutics Data Commons(TDC)数据集上的分子性质预测任务中取得了显著提升。总结来说,ACML通过浅层图编码器和多模态对比学习,实现了高效的分子表示学习,为化学研究和药物发现提供了新的工具。
18. Ligand-Conditioned Side Chain Packing for Flexible Molecular Docking
期刊:Journal of Chemical Theory and Computation
链接:https://pubs.acs.org/doi/10.1021/acs.jctc.4c01636
简介:本文提出了一种名为ApoDock的灵活分子对接方法,通过结合机器学习驱动的条件侧链包装和传统采样方法,确保生成的对接姿态具有物理合理性,显著提升了蛋白质-配体相互作用的预测精度。该方法利用基于消息传递神经网络(MPNN)的ApoPack模块,根据蛋白质骨架和配体信息预测侧链构象,并通过混合密度网络(MDN)的ApoScore模块对生成的姿态进行评分和排序。实验在PDBbind、PoseBuster、Apo2Holo和Cross-Docking等数据集上进行,结果表明ApoDock在使用AlphaFold2和ESMFold预测的蛋白质结构时,成功率比现有最先进方法高出28.5%,尤其在处理蛋白质灵活性方面表现出色。总结来说,ApoDock通过结合机器学习和传统物理约束,为蛋白质-配体结合研究提供了高效且可靠的工具。