首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | OMol25,超大规模 DFT 数据集与基线模型,推动分子化学机器学习研究新突破

AI+Drug 文献速递 | OMol25,超大规模 DFT 数据集与基线模型,推动分子化学机器学习研究新突破

作者头像
MindDance
发布2026-01-08 12:47:12
发布2026-01-08 12:47:12
2080
举报

1. The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

期刊: arxiv 链接: https://arxiv.org/abs/2505.08762 代码: https://github.com/facebookresearch/fairchem

简介: 本文介绍了Open Molecules 2025(OMol25)数据集,包含超1亿个DFT计算数据,覆盖83种元素,涵盖生物分子、金属配合物、电解质等多类体系,具有高化学多样性和结构复杂性。数据集通过结合分子动力学采样、反应路径模拟和构象优化,确保涵盖电荷/自旋状态、溶剂化效应和反应活性等特性。配套的基准模型(如eSEN、GemNet-OC)在多任务评估中表现出高预测精度,尤其在配体-蛋白相互作用、质子化能和构象优化任务中展现优势。OMol25还提供跨领域评估工具,支持机器学习模型在药物设计、电池电解液优化等场景的应用。该数据集开源且可扩展,为分子模拟和AI驱动的化学发现提供了重要资源。


2. EXPRESSION GRAPH NETWORK FRAMEWORK FOR BIOMARKER DISCOVERY

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.04.28.651033 代码: https://github.com/yliu38/EGNF

简介: 研究提出表达图网络框架EGNF,结合图神经网络(GCN/GAT)和基于网络的特征工程,解决传统方法在高维基因表达数据中捕获复杂分子关系的不足,用于生物标志物发现。该框架通过差异表达分析筛选基因,构建基于层次聚类的图网络,利用节点度、社区基因频率和通路富集进行特征选择,再通过GNN进行分类。实验验证基于三个独立数据集:GLASS胶质母细胞瘤数据集(295例原发/275例复发肿瘤)、TCGA乳腺癌数据集(111例正常/113例肿瘤)和GSE87455乳腺癌治疗前后数据集(69例)。结果显示,EGNF在正常-肿瘤分类中实现完美分离,在原发-复发和治疗前后分类中,GAT模型的AUC分别达0.977和0.926,优于随机森林、SVM等传统模型。EGNF通过整合图结构和生物通路信息,提升了生物标志物识别的准确性和可解释性,为精准医学提供了新工具。


3. A Case-Based Explainable Graph Neural Network Framework for Mechanistic Drug Repositioning

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.04.28.651120 代码: https://github.com/SuLab/DBR-X

简介: 研究开发了基于案例的可解释图神经网络框架DBR-X,用于药物重新定位,通过链接预测模块(基于案例推理检索相似药物案例)和路径识别模块(异质路径掩码学习)生成可解释的药物-疾病关联预测。模型在Mechanistic Repositioning Network with Indications (MIND) 知识图谱上训练,包含250,035个节点和960万条边,测试集包含390个药物-疾病对。实验对比了R-GCN、CompGCN等基线模型,DBR-X在Hits@10和MRR指标上分别达0.5708和0.4789,显著优于传统方法。通过删除/插入研究和稳定性分析验证解释的忠实性,其ROCAUC达0.72,优于GNNExplainer等基线。案例研究显示,DBR-X为杜氏肌营养不良、 Timothy综合征等罕见病识别出潜在药物(如Bitolterol、Aranidipine),并提供多跳机制路径。该框架结合案例推理和图解释技术,提升了药物重定位的可解释性和生物学合理性。


4. Predicting rare drug-drug interaction events with dual-granular structure-adaptive and pair variational representation

期刊: Nature Communications 链接: https://doi.org/10.1038/s41467-025-59431-9 代码: https://github.com/MrPhil/RareDDIE

简介: 本文针对罕见药物-药物相互作用事件(DDIEs)预测难题,提出基于元学习的RareDDIE模型,通过双粒度结构驱动的药物对变分表示和生物语义迁移模块(BST),解决了传统方法在少样本和零样本场景下的局限性。模型通过化学子结构提取模块(CSE)和邻域自适应集成模块(NAI)捕获药物的分子结构和生物邻域信息,利用变分自动编码器(VAE)构建药物对的关系度量空间,并引入BST模块结合大规模句子嵌入模型BioSentVec实现零样本预测。实验使用DrugBank、TWOSIDES等数据集,在少样本(1-shot和5-shot)和零样本设置下,RareDDIE的AUC等指标显著优于META-DDIE、GMatching等七种基线方法,且能将DDIE元知识迁移至药物协同预测任务,在非小细胞肺癌药物协同案例中验证了实用性。该研究为数据有限场景下的药物相互作用预测提供了有效框架,推动了药物安全评估和组合疗法设计的发展。


5. EDBench: Large-Scale Electron Density Data for Molecular Modeling

期刊: arXiv 链接: https://arxiv.org/abs/2505.09262v1

简介: 本文构建了大规模电子密度(ED)数据集EDBench,包含335万分子的高精度ED数据及量子化学性质,旨在推动分子建模从原子级向电子级发展。通过B3LYP/6-31G**/+G**基组的DFT计算生成数据,并设计涵盖量子性质预测(如能量、轨道能量)、分子结构与ED跨模态检索、ED生成的基准任务。实验采用PointVector、X-3D等模型在EDBench上评估,结果显示X-3D在预测任务中表现最优,HGEGNN生成ED的MAE低于0.05,且计算效率比传统DFT提升数千倍。数据集支持 scaffold split 划分,包含ED5-EC、ED5-OE等六个基准子集,为电子级分子建模提供了标准化平台,助力药物发现和材料科学中基于ED的机器学习研究。


6. PLIP 2025: introducing protein–protein interactions to the protein–ligand interaction profiler

期刊: Nucleic Acids Research 链接: https://doi.org/10.1093/nar/gkaf361 平台: https://plip-tool.biotec.tu-dresden.de/

简介: 本文介绍了蛋白质-配体相互作用分析工具PLIP的2025版本,新增蛋白质-蛋白质相互作用(PPI)分析功能,可检测氢键、疏水作用等八种非共价相互作用。通过对比抗癌药物 Venetoclax 与Bcl-2/BAX蛋白复合物的相互作用,验证了PLIP在揭示药物模拟天然蛋白相互作用机制中的能力,例如两者共享Bcl-2的Phe104、Tyr108等关键疏水残基和氢键网络。PLIP提供网页服务器、容器化源代码和Jupyter notebook三种使用方式,支持PDB文件输入和参数调整,适用于药物筛选、分子动力学模拟分析和深度学习数据集构建。该工具扩展了传统PLI分析的应用范围,为靶向PPI的小分子药物设计提供了可视化和量化分析支持,促进结构生物学和药物发现的交叉研究。


7. Generative Molecular Design with Steerable and Granular Synthesizability Control

期刊: arxiv 链接: https://arxiv.org/abs/2505.08774 代码: https://github.com/schwallergroup/saturn

简介: 本文提出一种小分子生成设计框架,实现了对合成可行性的可控和细粒度控制。传统方法难以兼顾合成简易性和反应约束灵活性,而该框架通过结合预训练生成模型Saturn和 retrosynthesis模型Synthesus,利用强化学习(RL)将生成分子的多参数优化(如对接分数、药物相似性)与合成路径约束(如指定反应类型、避免副反应、最小化合成步骤)相结合。实验表明,生成分子不仅满足任意反应约束(如仅使用酰胺偶联反应或避免保护基反应),还能将工业副产物转化为目标分子,实现超大型虚拟库(如Chemspace的1420亿分子库)的高效筛选,仅需评估0.00001%的分子即可发现候选化合物。基准测试显示,该框架在样本效率和合成路径多样性上优于现有模型,尤其在单一反应类型约束下表现更优。代码开源,为自动化分子发现和绿色化学提供了新工具。


8. A unified multimodal model for generalizable zero-shot and supervised protein function prediction

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.05.09.653226 代码: https://github.com/jianlin-cheng/FunBind

简介: 该研究提出多模态AI模型FunBind,通过整合蛋白质序列、结构、文本描述、结构域注释和GO术语,解决传统方法单模态或有限模态整合的局限性,实现零样本和监督学习下的蛋白质功能预测。模型通过对比学习的自监督预训练,将序列模态与其他模态在统一潜在空间对齐,支持无监督零样本预测,同时通过监督微调利用多模态进行功能分类。实验基于CAFA5数据集训练,使用Test Zero(含659个含新GO术语的蛋白质)、Test All(新发布蛋白质)和Test Novel(与训练数据序列相似度<30%的蛋白质)进行测试。结果显示,FunBind在零样本预测中,序列模态的R@5在CC、MF、BP类别分别达0.9129、0.9048、0.7845,多模态共识预测进一步提升性能;在监督分类中,优于TransFew、DeepGO-SE等现有方法,AUPR在BP类别达0.429。该研究为蛋白质功能预测提供了更准确且可泛化的多模态解决方案,展现了跨模态对齐和零样本学习的优势。


9. A Comparative Study of Transformer-Based Models for Multi-Horizon Blood Glucose Prediction

期刊: arxiv 链接: https://arxiv.org/abs/2505.08821v1 代码: https://github.com/Center-for-Diabetes-Technology/TransformerBasedBGPrediction

简介: 论文对比了多种Transformer模型在多时间跨度血糖预测中的表现,探讨历史数据长度对预测精度的影响。研究使用DCLP3(112例)和OhioT1DM(12例)数据集,测试了点嵌入、补丁嵌入、序列嵌入及混合嵌入策略的模型,包括Crossformer、PatchTST等。结果显示,补丁嵌入的Crossformer在短期(30分钟)预测中表现最佳(RMSE 15.6 mg/dL),而PatchTST在长期(4小时)预测中更优(RMSE 46.5 mg/dL),且一周历史数据整体提升预测精度。实验还发现,补丁和序列嵌入模型在捕捉长期依赖上优于点嵌入方法,而DLinear等基线模型表现较差。该研究证明了Transformer在血糖预测中的潜力,为糖尿病管理提供了新的建模思路。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models
  • 2. EXPRESSION GRAPH NETWORK FRAMEWORK FOR BIOMARKER DISCOVERY
  • 3. A Case-Based Explainable Graph Neural Network Framework for Mechanistic Drug Repositioning
  • 4. Predicting rare drug-drug interaction events with dual-granular structure-adaptive and pair variational representation
  • 5. EDBench: Large-Scale Electron Density Data for Molecular Modeling
  • 6. PLIP 2025: introducing protein–protein interactions to the protein–ligand interaction profiler
  • 7. Generative Molecular Design with Steerable and Granular Synthesizability Control
  • 8. A unified multimodal model for generalizable zero-shot and supervised protein function prediction
  • 9. A Comparative Study of Transformer-Based Models for Multi-Horizon Blood Glucose Prediction
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档