首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | hERGAT结合GAT和GRU,以预测hERG通道阻断剂,解决了现有模型在性能和可解释性上的不足

AI+Drug 文献速递 | hERGAT结合GAT和GRU,以预测hERG通道阻断剂,解决了现有模型在性能和可解释性上的不足

作者头像
MindDance
发布2026-01-08 11:20:56
发布2026-01-08 11:20:56
2690
举报

1. hERGAT: predicting hERG blockers using graph attention mechanism through atom- and molecule-level interaction analyses

期刊:Journal of Cheminformatics

链接:https://doi.org/10.1186/s13321-025-00957-x

简介:本文提出了一种名为hERGAT的图神经网络模型,通过结合图注意力机制(GAT)和门控循环单元(GRU),能够从原子和分子层面分析化合物的相互作用,从而预测hERG通道阻断剂,解决了现有模型在性能和可解释性上的不足。方法上,hERGAT利用GAT聚合邻近节点的信息,并通过GRU更新远距离原子的信息,同时整合了化合物的物理化学性质以提高预测性能。实验使用了来自ChEMBL、PubChem Bioassay和其他外部研究的23,381个化合物数据集,模型在测试集上取得了AUROC为0.907和AUPR为0.904的高性能,并通过外部数据集验证了其泛化能力。总结而言,hERGAT在预测hERG阻断剂方面表现出色,为药物开发中的心脏毒性评估提供了可靠的工具。

2. EAIRA: Establishing a Methodology for Evaluating AI Models as Scientific Research Assistants

期刊:arXiv

链接:https://arxiv.org/abs/2502.20309

简介:本文提出了一种评估大语言模型(LLMs)作为科研助手的方法论(EAIRA),创新性地结合了多项选择题、开放式回答、实验室风格实验和现场风格实验,以全面评估LLMs在科学研究中的能力。该方法通过多类评估技术,包括事实回忆、高级推理、实验室环境下的详细分析以及大规模科研领域中的用户互动,确保评估的全面性和严谨性。实验使用了多个数据集,如Astronomy Benchmark、Climate Benchmark和AI4S Benchmark,结果显示LLMs在特定领域的表现存在显著差异,尤其是在复杂推理和科学知识应用方面。总结而言,EAIRA方法论为LLMs在科研中的应用提供了系统且可扩展的评估框架,有助于推动其在科学领域的进一步发展。

3. KEDRec-LM: A Knowledge-distilled Explainable Drug Recommendation Large Language Model

期刊:arXiv

链接:https://arxiv.org/abs/2502.20350

简介:本文提出了一种基于知识蒸馏的可解释药物推荐大模型KEDRec-LM,创新地结合了知识图谱和检索增强生成技术,用于提升药物推荐的准确性和可解释性。该方法通过从药物重利用知识图谱(DRKG)中采样疾病-药物对,并利用检索增强生成(RAG)技术从PubMed和临床试验数据中检索背景信息,进而通过知识蒸馏训练一个专门用于药物推荐的LLaMA模型。实验使用了自建的expRxRec数据集和公开的MIMIC-III数据集,结果表明KEDRec-LM在药物选择和推荐理由生成任务上均取得了最佳性能,特别是在结合临床试验和PubMed数据时表现尤为突出。该研究为药物发现提供了一种有效且可解释的AI驱动方法。

4. PhenoProfiler: Advancing Phenotypic Learning for Image-based Drug Discovery

期刊:arXiv

链接:https://arxiv.org/abs/2502.19568

简介:本文提出了一种名为PhenoProfiler的创新工具,用于从高通量细胞图像中提取形态学表征,显著提升了基于图像的药物发现效率。该方法通过端到端的框架,直接处理全片多通道图像,结合梯度编码器、Transformer编码器和多目标学习模块,有效捕捉细胞形态变化。实验在三个公开数据集(BBBC022、CDRP-BIO-BBBC036、TAORF-BBBC037)上进行,涉及超过23万张全片多通道图像和842万张单细胞图像,结果表明PhenoProfiler在准确性和鲁棒性上均优于现有方法,最高提升达20%。PhenoProfiler通过其创新的多目标学习和表型校正策略,为高通量药物筛选提供了强有力的工具。

5. Agentic Mixture-of-Workflows for Multi-Modal Chemical Search

期刊:arXiv

链接:https://arxiv.org/abs/2502.19629

简介:本文提出了一种名为CRAG-MoW的新型多工作流混合架构,用于多模态化学搜索,通过结合自校正检索增强生成(CRAG)策略,显著提升了材料科学中大型语言模型(LLM)的应用效果。该方法通过多个开源LLM的协同工作,生成高质量、结构化的响应,并在小分子、聚合物、化学反应及核磁共振(NMR)光谱检索等任务中进行了广泛评估。实验使用了包括250,000个小分子、聚合物和化学反应的数据集,以及2,259个NMR光谱数据,结果表明CRAG-MoW在性能上与GPT-4o相当,且在比较评估中更受青睐。总体而言,CRAG-MoW为材料科学中的AI驱动研究提供了一种可扩展、可解释的基准驱动方法,显著提升了检索和响应的质量。

6. scMamba: A Pre-Trained Model for Single-Nucleus RNA Sequencing Analysis in Neurodegenerative Disorders

期刊:arXiv

链接:https://arxiv.org/abs/2502.19429

简介:本文提出了一种名为scMamba的预训练模型,用于提高单核RNA测序(snRNA-seq)在神经退行性疾病研究中的分析质量和实用性,其创新点在于结合了线性适配层、基因嵌入和双向Mamba块,能够高效处理snRNA-seq数据并保留原始输入信息。该方法通过掩码表达建模进行预训练,无需依赖降维或高变基因选择,学习细胞和基因的通用特征。实验使用了包括Lau、Leng、Smajic、Zhu和Jung在内的多个数据集,结果表明scMamba在细胞类型注释、双联体检测、插值和差异表达基因识别等下游任务中均优于基准方法。scMamba的提出为神经退行性疾病的snRNA-seq数据分析提供了更高效和准确的工具。

7. GTAT: empowering graph neural networks with cross attention

期刊:Scientific Reports

链接:https://www.nature.com/articles/s41598-025-88993-3

简介:本文提出了一种新颖的图神经网络框架GTAT,通过引入拓扑特征和交叉注意力机制,提升了图结构数据的表示能力。GTAT首先从图结构中提取拓扑特征并编码为拓扑表示,然后将节点特征和拓扑表示输入交叉注意力图神经网络层进行交互,动态调整节点特征和拓扑信息的影响。实验在Cora、Citeseer、PubMed等九个常用基准数据集上进行,结果表明GTAT在分类任务上优于现有最先进方法,并能够缓解过平滑问题,增强对噪声数据的鲁棒性。GTAT通过有效整合拓扑信息,显著提升了图神经网络的表达能力和性能。

8. kMoL: an open-source machine and federated learning library for drug discovery

期刊:Journal of Cheminformatics

链接:https://doi.org/10.1186/s13321-025-00967-9

简介:本文介绍了kMoL,一个开源且集成了联邦学习功能的机器学习库,旨在解决药物发现中的数据隐私和安全问题,其创新点在于提供了先进的定制化和安全功能,无需额外编程。kMoL通过管道、数据预处理和数据分析与执行等核心概念,支持多种模型架构和联邦学习机制,用户可以通过JSON文件轻松配置和优化模型。实验部分包括本地基准测试和分布式联邦学习实验,使用了MoleculeNet、Tox21、AMES和DruMAP等数据集,结果表明kMoL在分类和回归任务中表现优异,尤其是在联邦学习策略下,能够有效平衡数据隐私和模型性能。总体而言,kMoL为药物发现提供了一个灵活且安全的机器学习平台,适用于各种背景的研究人员。

9. Identification of metabolite-disease associations based on knowledge graph

期刊:Metabolomics

链接:https://link.springer.com/article/10.1007/s11306-025-02227-1

简介:本文提出了一种基于知识图谱和随机森林算法的COM-RAN模型,用于预测代谢物与疾病之间的潜在关联,创新点在于将知识图谱与机器学习方法结合,显著提高了预测的准确性和可靠性。方法上,首先整合了已知的代谢物与疾病关联数据,构建了包含代谢物、疾病、基因、蛋白质等实体的知识图谱,并使用ComplEx算法进行知识图谱嵌入学习,最后通过随机森林算法构建预测模型。实验使用了Human Metabolome Database (HMDB)和Comparative Toxicogenomics Database (CTD)数据集,通过5折交叉验证,模型在AUC和AUPR指标上分别达到了0.968和0.901,优于现有大多数预测方法。总结来说,COM-RAN模型在预测代谢物与疾病关联方面表现出色,为精准医学提供了有力支持。

10. MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

期刊:arXiv

链接:https://arxiv.org/abs/2502.16284

简介:本文提出了一种利用多模态能谱预训练3D分子表示的新方法MolSpectra,创新性地将量子力学中的能级结构知识引入分子表示学习。该方法通过设计多谱编码器SpecFormer,结合掩码补丁重建目标和对比学习目标,将3D分子结构与能谱信息对齐,从而提升分子表示的表达能力。实验在QM9和MD17数据集上进行,结果表明MolSpectra在分子性质预测和动力学建模任务中优于现有方法,特别是在QM9数据集的12个性质预测任务中,有8个达到了最优性能。该方法通过引入量子力学知识,显著提升了3D分子表示的质量和泛化能力。

11. Provable Sample-Efficient Transfer Learning Conditional Diffusion Models via Representation Learning

期刊:arXiv

链接:https://arxiv.org/abs/2502.04491

简介:本文首次从表示学习的角度探讨了条件扩散模型(CDMs)在迁移学习中的样本效率问题,创新性地提出了通过源任务学习到的低维表示来显著降低目标任务的样本复杂度。方法上,作者假设存在一个跨任务共享的低维条件表示,并通过理论分析证明了在源任务中学习到的良好表示可以大幅减少目标任务的样本复杂性。实验部分,作者在高维条件扩散模型上进行了数值实验,验证了所提出方法的有效性,结果表明在有限数据情况下,迁移学习显著提高了目标任务的性能。总结而言,本文为条件扩散模型的迁移学习提供了理论基础,并展示了其在实际应用中的潜力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档