
期刊: arxiv 链接: https://arxiv.org/abs/2505.24203
简介: 该论文提出Energy-based Alignment (EBA)框架,将生成模型与物理模型的反馈对齐,解决传统数据驱动方法难以整合物理约束的问题,通过平衡构象态的能量差异提升蛋白质构象集合生成的物理合理性。方法上,EBA通过可扩展的学习目标整合细粒度力场反馈,对预训练的全原子去噪扩散模型进行微调,使其生成符合玻尔兹曼分布的构象集合。实验在ATLAS MD数据集上进行,对比AlphaFold3、MDGen等基线模型,EBA在预测灵活性、分布准确性等指标上表现更优,例如在Pairwise RMSD和Global RMSF指标上分别达到0.62和0.71的相关系数,证明其生成的构象集合更贴近真实物理状态。该研究为生成模型与传统模拟方法的结合提供了新路径,有望推动结构生物学和药物发现领域的发展。

期刊: arxiv 链接: https://arxiv.org/abs/2505.23823 代码: https://github.com/youngseungjeon/RAGPPI
简介: 论文介绍了首个针对蛋白质-蛋白质相互作用(PPI)生物影响识别的RAG基准数据集RAGPPI,包含4420个问答对,旨在解决药物发现中目标识别的耗时挑战。通过专家访谈确定基准设计标准,构建了500对专家标注的黄金标准数据集,并利用集成自动评估LLM生成3720对银标准数据集。实验评估了ChatGPT-4.1、Gemini-2.0-Flash等模型在该基准上的表现,发现RAG系统GraPPI和GeneGPT在事实对齐和准确性上优于通用LLM,但整体性能仍有提升空间,例如Gemini在M1评估中准确率为58.87%。RAGPPI为评估RAG模型在药物发现中的表现提供了标准化工具,促进可解释和可靠的生物医学问答系统发展。

期刊: arxiv 链接: https://arxiv.org/abs/2505.23987 代码: https://github.com/ninglab/GeLLMO-C
简介: 该研究提出C-MuMOInstruct数据集和GeLLM4O-C系列模型,解决分子优化中多属性可控优化问题,支持指定属性阈值的选择性优化。C-MuMOInstruct包含28266个任务,覆盖10种药理相关属性,通过专家标注和自动评估构建。GeLLM4O-C通过指令微调通用LLM,实现对特定属性的定向优化,例如在BDPQ任务中成功优化比例达56.6%,显著高于基线模型。实验显示,通用模型GeLLM4O-C-P(10)在5个分布内任务和5个分布外任务中均表现最佳,如在ABMP任务中成功率达86.6%,相对提升18.3%。该工作为药物设计提供了首个支持属性特异性目标的大规模基准和模型,推动可控分子优化的发展。

期刊: arxiv 链接: https://arxiv.org/abs/2505.23861v1 代码: https://github.com/Renyeeah/BiBLDR
简介: 该论文提出一种用于药物重新定位的双向行为学习策略BiBLDR,旨在解决传统基于图表示的深度学习方法在冷启动场景中对新药物关联预测的不足。创新点在于将药物-疾病关联预测重构为行为序列学习任务,通过双向行为序列建模和两阶段学习框架捕捉交互模式。方法上,首先基于药物和疾病侧构建双向行为序列,利用暹罗网络构建原型空间刻画实体属性,再通过Transformer架构处理行为序列并融合相似性信息进行关联预测。实验在Gdataset、Cdataset和LRSSL三个基准数据集上进行,采用10折交叉验证,结果显示BiBLDR在AUROC和AUPRC指标上显著优于传统方法和现有深度学习模型,尤其在冷启动场景和稀疏数据环境中表现出色,案例研究验证了其在肺癌和高血压药物预测中的实用性。该研究为药物重新定位提供了一种高效的新方法,有效提升了冷启动场景下的预测能力和模型鲁棒性。

期刊: bioRxiv 链接: https://doi.org/10.1101/2024.10.23.619960 代码: https://github.com/zaixizhang/FoldMark
简介: 针对蛋白质生成模型的生物安全和知识产权保护问题,论文提出FoldMark,一种基于分布和进化原理的新型水印策略。该方法通过两阶段训练框架实现:首先利用进化信号(如多序列比对、蛋白质语言模型嵌入)引导水印编码器/解码器在蛋白质结构中嵌入用户特定水印,确保保守区域噪声最小化和灵活区域的高容量嵌入;然后通过水印条件LoRA对生成模型进行微调,平衡结构质量和水印可恢复性。实验在AlphaFold3、RFDiffusion等模型上验证,实现了超过95%的水印位准确率,结构质量影响极小(scTM>0.9),并在用户追踪(支持100万用户)、未经授权的数据使用检测(TPR>90%@FPR=10⁻⁵)和湿实验(如EGFP和Cas13设计)中表现出实用性。FoldMark为蛋白质生成模型提供了可靠的安全保障,助力AI驱动的蛋白质研究合规与安全。
