AI+Drug 文献速递 | OMol25，超大规模 DFT 数据集与基线模型，推动分子化学机器学习研究新突破

MindDance

发布于 2026-01-08 12:47:12

2080

1. The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

期刊: arxiv 链接: https://arxiv.org/abs/2505.08762 代码: https://github.com/facebookresearch/fairchem

简介: 本文介绍了Open Molecules 2025（OMol25）数据集，包含超1亿个DFT计算数据，覆盖83种元素，涵盖生物分子、金属配合物、电解质等多类体系，具有高化学多样性和结构复杂性。数据集通过结合分子动力学采样、反应路径模拟和构象优化，确保涵盖电荷/自旋状态、溶剂化效应和反应活性等特性。配套的基准模型（如eSEN、GemNet-OC）在多任务评估中表现出高预测精度，尤其在配体-蛋白相互作用、质子化能和构象优化任务中展现优势。OMol25还提供跨领域评估工具，支持机器学习模型在药物设计、电池电解液优化等场景的应用。该数据集开源且可扩展，为分子模拟和AI驱动的化学发现提供了重要资源。

2. EXPRESSION GRAPH NETWORK FRAMEWORK FOR BIOMARKER DISCOVERY

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.04.28.651033 代码: https://github.com/yliu38/EGNF

简介: 研究提出表达图网络框架EGNF，结合图神经网络（GCN/GAT）和基于网络的特征工程，解决传统方法在高维基因表达数据中捕获复杂分子关系的不足，用于生物标志物发现。该框架通过差异表达分析筛选基因，构建基于层次聚类的图网络，利用节点度、社区基因频率和通路富集进行特征选择，再通过GNN进行分类。实验验证基于三个独立数据集：GLASS胶质母细胞瘤数据集（295例原发/275例复发肿瘤）、TCGA乳腺癌数据集（111例正常/113例肿瘤）和GSE87455乳腺癌治疗前后数据集（69例）。结果显示，EGNF在正常-肿瘤分类中实现完美分离，在原发-复发和治疗前后分类中，GAT模型的AUC分别达0.977和0.926，优于随机森林、SVM等传统模型。EGNF通过整合图结构和生物通路信息，提升了生物标志物识别的准确性和可解释性，为精准医学提供了新工具。

3. A Case-Based Explainable Graph Neural Network Framework for Mechanistic Drug Repositioning

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.04.28.651120 代码: https://github.com/SuLab/DBR-X

简介: 研究开发了基于案例的可解释图神经网络框架DBR-X，用于药物重新定位，通过链接预测模块（基于案例推理检索相似药物案例）和路径识别模块（异质路径掩码学习）生成可解释的药物-疾病关联预测。模型在Mechanistic Repositioning Network with Indications (MIND) 知识图谱上训练，包含250,035个节点和960万条边，测试集包含390个药物-疾病对。实验对比了R-GCN、CompGCN等基线模型，DBR-X在Hits@10和MRR指标上分别达0.5708和0.4789，显著优于传统方法。通过删除/插入研究和稳定性分析验证解释的忠实性，其ROCAUC达0.72，优于GNNExplainer等基线。案例研究显示，DBR-X为杜氏肌营养不良、 Timothy综合征等罕见病识别出潜在药物（如Bitolterol、Aranidipine），并提供多跳机制路径。该框架结合案例推理和图解释技术，提升了药物重定位的可解释性和生物学合理性。

4. Predicting rare drug-drug interaction events with dual-granular structure-adaptive and pair variational representation

期刊: Nature Communications 链接: https://doi.org/10.1038/s41467-025-59431-9 代码: https://github.com/MrPhil/RareDDIE

简介: 本文针对罕见药物-药物相互作用事件（DDIEs）预测难题，提出基于元学习的RareDDIE模型，通过双粒度结构驱动的药物对变分表示和生物语义迁移模块（BST），解决了传统方法在少样本和零样本场景下的局限性。模型通过化学子结构提取模块（CSE）和邻域自适应集成模块（NAI）捕获药物的分子结构和生物邻域信息，利用变分自动编码器（VAE）构建药物对的关系度量空间，并引入BST模块结合大规模句子嵌入模型BioSentVec实现零样本预测。实验使用DrugBank、TWOSIDES等数据集，在少样本（1-shot和5-shot）和零样本设置下，RareDDIE的AUC等指标显著优于META-DDIE、GMatching等七种基线方法，且能将DDIE元知识迁移至药物协同预测任务，在非小细胞肺癌药物协同案例中验证了实用性。该研究为数据有限场景下的药物相互作用预测提供了有效框架，推动了药物安全评估和组合疗法设计的发展。

5. EDBench: Large-Scale Electron Density Data for Molecular Modeling

期刊: arXiv 链接: https://arxiv.org/abs/2505.09262v1

简介: 本文构建了大规模电子密度（ED）数据集EDBench，包含335万分子的高精度ED数据及量子化学性质，旨在推动分子建模从原子级向电子级发展。通过B3LYP/6-31G**/+G**基组的DFT计算生成数据，并设计涵盖量子性质预测（如能量、轨道能量）、分子结构与ED跨模态检索、ED生成的基准任务。实验采用PointVector、X-3D等模型在EDBench上评估，结果显示X-3D在预测任务中表现最优，HGEGNN生成ED的MAE低于0.05，且计算效率比传统DFT提升数千倍。数据集支持 scaffold split 划分，包含ED5-EC、ED5-OE等六个基准子集，为电子级分子建模提供了标准化平台，助力药物发现和材料科学中基于ED的机器学习研究。

6. PLIP 2025: introducing protein–protein interactions to the protein–ligand interaction profiler

期刊: Nucleic Acids Research 链接: https://doi.org/10.1093/nar/gkaf361 平台: https://plip-tool.biotec.tu-dresden.de/

简介: 本文介绍了蛋白质-配体相互作用分析工具PLIP的2025版本，新增蛋白质-蛋白质相互作用（PPI）分析功能，可检测氢键、疏水作用等八种非共价相互作用。通过对比抗癌药物 Venetoclax 与Bcl-2/BAX蛋白复合物的相互作用，验证了PLIP在揭示药物模拟天然蛋白相互作用机制中的能力，例如两者共享Bcl-2的Phe104、Tyr108等关键疏水残基和氢键网络。PLIP提供网页服务器、容器化源代码和Jupyter notebook三种使用方式，支持PDB文件输入和参数调整，适用于药物筛选、分子动力学模拟分析和深度学习数据集构建。该工具扩展了传统PLI分析的应用范围，为靶向PPI的小分子药物设计提供了可视化和量化分析支持，促进结构生物学和药物发现的交叉研究。

7. Generative Molecular Design with Steerable and Granular Synthesizability Control

期刊: arxiv 链接: https://arxiv.org/abs/2505.08774 代码: https://github.com/schwallergroup/saturn

简介: 本文提出一种小分子生成设计框架，实现了对合成可行性的可控和细粒度控制。传统方法难以兼顾合成简易性和反应约束灵活性，而该框架通过结合预训练生成模型Saturn和 retrosynthesis模型Synthesus，利用强化学习（RL）将生成分子的多参数优化（如对接分数、药物相似性）与合成路径约束（如指定反应类型、避免副反应、最小化合成步骤）相结合。实验表明，生成分子不仅满足任意反应约束（如仅使用酰胺偶联反应或避免保护基反应），还能将工业副产物转化为目标分子，实现超大型虚拟库（如Chemspace的1420亿分子库）的高效筛选，仅需评估0.00001%的分子即可发现候选化合物。基准测试显示，该框架在样本效率和合成路径多样性上优于现有模型，尤其在单一反应类型约束下表现更优。代码开源，为自动化分子发现和绿色化学提供了新工具。

8. A unified multimodal model for generalizable zero-shot and supervised protein function prediction

期刊: bioRxiv 链接: https://doi.org/10.1101/2025.05.09.653226 代码: https://github.com/jianlin-cheng/FunBind

简介: 该研究提出多模态AI模型FunBind，通过整合蛋白质序列、结构、文本描述、结构域注释和GO术语，解决传统方法单模态或有限模态整合的局限性，实现零样本和监督学习下的蛋白质功能预测。模型通过对比学习的自监督预训练，将序列模态与其他模态在统一潜在空间对齐，支持无监督零样本预测，同时通过监督微调利用多模态进行功能分类。实验基于CAFA5数据集训练，使用Test Zero（含659个含新GO术语的蛋白质）、Test All（新发布蛋白质）和Test Novel（与训练数据序列相似度<30%的蛋白质）进行测试。结果显示，FunBind在零样本预测中，序列模态的R@5在CC、MF、BP类别分别达0.9129、0.9048、0.7845，多模态共识预测进一步提升性能；在监督分类中，优于TransFew、DeepGO-SE等现有方法，AUPR在BP类别达0.429。该研究为蛋白质功能预测提供了更准确且可泛化的多模态解决方案，展现了跨模态对齐和零样本学习的优势。

9. A Comparative Study of Transformer-Based Models for Multi-Horizon Blood Glucose Prediction

期刊: arxiv 链接: https://arxiv.org/abs/2505.08821v1 代码: https://github.com/Center-for-Diabetes-Technology/TransformerBasedBGPrediction

简介: 论文对比了多种Transformer模型在多时间跨度血糖预测中的表现，探讨历史数据长度对预测精度的影响。研究使用DCLP3（112例）和OhioT1DM（12例）数据集，测试了点嵌入、补丁嵌入、序列嵌入及混合嵌入策略的模型，包括Crossformer、PatchTST等。结果显示，补丁嵌入的Crossformer在短期（30分钟）预测中表现最佳（RMSE 15.6 mg/dL），而PatchTST在长期（4小时）预测中更优（RMSE 46.5 mg/dL），且一周历史数据整体提升预测精度。实验还发现，补丁和序列嵌入模型在捕捉长期依赖上优于点嵌入方法，而DLinear等基线模型表现较差。该研究证明了Transformer在血糖预测中的潜力，为糖尿病管理提供了新的建模思路。