首页
学习
活动
专区
工具
TVP
发布

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
专栏成员
1134
文章
717860
阅读量
120
订阅数
无回归器引导的药物反应预测方法
今天为大家介绍的是来自武汉大学胡文斌团队的一篇论文。药物反应预测(DRP)是药物发现中的一个关键阶段,其评估的最重要指标是IC50分数。DRP的结果在很大程度上取决于生成分子的质量。现有的分子生成方法通常采用基于分类器的指导,允许在IC50分类范围内进行采样。然而,这些方法无法确保采样空间范围的有效性,导致生成了大量无效分子。通过实验和理论研究,作者假设基于目标IC50分数的条件生成可以获得更有效的采样空间。因此,作者引入了无回归器指导的分子生成方法,以确保在更有效的空间内进行采样,支持DRP。无回归器指导结合了扩散模型的分数估计与基于数值标签的回归控制模型的梯度。为了有效映射药物和细胞系之间的回归标签,作者设计了一个常识数值知识图谱以限制文本表示顺序。对DRP任务的真实世界数据集的实验结果表明,该方法在药物发现中是有效的。代码可在以下网址获得:https://anonymous.4open.science/r/RMCD-DBD1。
DrugAI
2024-07-19
510
MolFlow: 高效3D分子生成方法
今天为大家介绍的是来自查尔姆斯理工大学的Simon Olsson团队的一篇论文。最近,3D药物设计的生成模型因其在蛋白质口袋中直接设计配体的潜力而获得了广泛关注。然而,目前的方法通常存在采样时间非常慢或生成分子的化学有效性差的问题。为了解决这些限制,作者提出了Semla,一个可扩展的E(3)-等变消息传递架构。作者进一步介绍了一个分子生成模型MolFlow,该模型使用流匹配和尺度最优传输进行训练,这是等变最优传输的一种新扩展。作者的模型在基准数据集上仅需100个采样步骤就能产生最先进的结果。关键是,MolFlow在不牺牲性能下只需20个步骤就能采样出高质量分子,相比于现有技术实现了两个数量级的速度提升。最后,作者比较了MolFlow与当前方法在生成高质量样本方面的能力,进一步展示了其强大性能。
DrugAI
2024-07-18
570
Nat. Commun. | 使用Umol从序列预测蛋白质-配体复合物结构
今天为大家介绍的是来自Frank Noe团队的一篇论文。蛋白质-配体对接是药物发现和开发中的常用工具,可以筛选出潜在的治疗物进行实验测试。然而,这需要高质量的蛋白质结构,通常蛋白质会被处理成完全或部分刚性的。作者开发了一种AI系统,可以直接从序列信息预测蛋白质-配体复合物的全原子灵活结构。作者发现传统的对接方法仍然更优越,但依赖于目标蛋白质的晶体结构。除了预测灵活的全原子结构外,预测的置信度指标(plDDT)还可以用于选择准确的预测结果以及区分强和弱结合物。Umol工具可在:https://github.com/patrickbryant1/Umol 获取。
DrugAI
2024-07-17
920
Commun. Biol. | BrainTACO: 一个可探索的多尺度多模态大脑转录组和连接性数据资源
今天为大家介绍的是来自Katja Buhler团队的一篇论文。探索基因与大脑回路之间的关系,可以通过联合分析来自3D成像数据、解剖数据以及不同尺度、分辨率和模态的大脑网络的异构数据集来加速。为了超越各个资源原始目的的单一视角而生成一个综合视图,需要将这些数据融合到一个共同的空间,并通过可视化手段弥合不同尺度之间的差距。然而,尽管数据集不断扩展,但目前很少有平台能够整合和探索这种异构数据。为此,作者推出了BrainTACO(Brain Transcriptomic And Connectivity Data,大脑转录组和连接性数据)资源,这是一个将异构的、多尺度的神经生物学数据空间映射到一个常见的、分层的参考空间,并通过整体数据整合方案进行组合的选择。为了访问BrainTACO,作者扩展了BrainTrawler,这是一个基于网络的空间神经生物学数据的可视化分析框架,并增加了对多个资源的比较可视化。这使得大脑网络的基因表达分析有着前所未有的覆盖范围,并允许识别在小鼠和人类中可能对连接性发现有贡献的潜在遗传驱动因素,这有助于发现失调连接表型。因此,BrainTACO减少了计算分析中通常需要的耗时的手动数据聚合,并通过直接利用数据而不是准备数据来支持神经科学家。BrainTrawler,包括BrainTACO资源,可以通过网址https://braintrawler.vrvis.at/访问到。
DrugAI
2024-07-16
1110
Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变
今天为大家介绍的是来自多伦多大学的Alán Aspuru-Guzik团队的一篇论文。计算化学是理解分子和预测化学性质的重要工具。然而,由于求解薛定谔方程的困难以及随着分子系统规模增加而带来的计算成本的增加,传统的计算方法面临着重大挑战。为此,利用人工智能(AI)和机器学习(ML)技术进行计算实验引起了极大的兴趣。将AI和ML引入计算化学可以提高化学空间探索的可扩展性和速度。然而,在ML模型的可重复性和可转移性方面挑战依然存在。这篇综述强调了ML在学习、补充或替代传统计算化学以进行能量和性质预测方面的演变。从完全基于数值数据训练的模型开始,向着包含或学习量子力学物理规律的理想模型迈进。本文还回顾了现有的计算方法和ML模型及其相互结合,概述了未来研究的路线图,并确定了改进和创新的领域。最终目标是开发能够预测薛定谔方程准确且可转移解的AI架构,从而彻底变革化学和材料科学中的计算实验。
DrugAI
2024-07-16
1090
J. Chem. Inf. Model. | 自动监测化学反应的核磁谱图识别算法MatCS
华东理工大学/华东师范大学的李洪林教授/刁妍妍团队在Journal of Chemical Information and Modeling上发表文章:Enhancing Chemical Reaction Monitoring with a Deep Learning Model for NMR Spectra Image Matching to Target Compounds,报道了一个用于自动化学反应监测的深度学习模型MatCS。该模型旨在通过预测目标化合物的SMILES和核磁共振光谱(包括1H NMR和13C NMR)谱图之间的对应关系,实现对化学反应进程的自动监测。
DrugAI
2024-07-16
1160
ICML 2024 | 人类与生成式AI内容创作竞赛:共生还是冲突?
今天为大家介绍的是来自Fan Yao等人发表的一篇论文。生成式AI(GenAI)技术的出现对内容创作领域产生了变革性的影响,提供了多样化和高质量内容的替代生产方法,从而重塑了在线生态系统,但也引发了市场过度饱和和人类创造力边缘化的担忧。作者的研究引入了一种从Tullock竞赛模型推广的竞赛模型,以分析人类创作者和GenAI之间的张力。作者的理论和模拟表明,尽管存在挑战,人类与AI生成内容之间的稳定平衡是可能的。作者的研究有助于理解内容创作行业的竞争动态,为人类创造力与GenAI技术进步之间的未来互动提供了见解。
DrugAI
2024-07-16
810
Brief. Bioinform. | 深度学习赋能表型药物发现
今天为大家介绍的是近期发表在Briefings in Bioinformatics的综述文章。该文章由佛罗里达大学李彦君课题组完成,题为“Morphological profiling for drug discovery in the era of deep learning”。该研究探讨了深度学习在细胞形态学分析以及表型药物发现中的创新应用。
DrugAI
2024-07-16
1230
ICML 2024 | 情境化的策略恢复:用自适应模仿学习来建模和解释医疗决策
今天为大家介绍的是来自卡内基·梅隆大学的Eric P. Xing团队的一篇论文。可解释策略学习旨在从观察到的行为中估计可理解的决策策略;然而,现有模型在准确性和可解释性之间存在权衡,这限制了基于数据的人类决策过程的解释。从根本上说,现有方法之所以受到这一权衡的困扰,是因为它们将底层决策过程表示为一个通用策略,而实际上人类决策是动态的,可以在不同情境下发生显著变化。因此,作者开发了情境化策略恢复(CPR),将复杂决策过程的建模问题重新定义为一个多任务学习问题,每个情境代表一个独特的任务,可以通过多个简单的情境特定策略逐步构建复杂的决策策略。CPR将每个情境特定策略建模为一个线性映射,并随着新的观测数据的加入生成新的策略模型。作者提供了两种CPR框架的实现方式:一种侧重于精确的局部可解释性,另一种保留了完整的全局可解释性。作者通过模拟数据和实际数据进行了评估,在预测重症监护病房中的抗生素处方和预测阿尔茨海默症患者的MRI处方方面,达到了最先进的性能。通过这一改进,CPR弥合了可解释方法和黑箱方法之间的准确性差距,允许对情境特定决策模型进行高分辨率的探索和分析。
DrugAI
2024-07-16
620
ICML 2024 | MH-pFLID:通过注入和蒸馏的模型异构个性化联邦学习用于医疗数据分析
今天为大家介绍的是来自Tianyu Luan团队的一篇论文。联邦学习广泛应用于医疗领域,用于在不需要访问本地数据的情况下训练全局模型。然而,由于客户间不同的计算能力和网络架构(系统异构性),从非独立同分布(non-IID)数据中有效聚合信息面临着重大挑战。当前使用知识蒸馏的联邦学习方法需要公共数据集,这会引发隐私和数据收集问题。此外,这些数据集需要额外的本地计算和存储资源,这对于硬件条件有限的医疗机构来说是一个负担。在本文中,作者引入了一种新颖的联邦学习范式,称为基于注入和蒸馏的模型异构个性化联邦学习(MH-pFLID)。作者的框架利用一个轻量级的信使模型来收集每个客户的信息。作者还开发了一套接收器和发射器模块,用于接收和发送来自信使模型的信息,以便高效地注入和蒸馏信息。作者的框架消除了对公共数据集的需求,并在客户之间高效地共享信息。作者在各种医学任务上的实验表明,MH-pFLID 在所有这些领域均优于现有的最先进方法,并具有良好的泛化能力。
DrugAI
2024-07-16
1020
ICML 2024 | 离散状态空间上的生成流:实现多模态流及其在蛋白质共同设计中的应用
今天为大家介绍的是来自Tommi Jaakkola团队的一篇论文。结合离散数据和连续数据是生成模型的重要能力。作者提出了离散流模型(DFMs),这是一种新的基于流的离散数据模型,弥补了在多模态连续和离散数据问题中应用基于流的生成模型的缺失环节。作者的关键见解是,可以使用连续时间马尔可夫链实现连续空间流匹配的离散等价形式。DFMs从一个简单的推导出发,包括离散扩散模型作为特定实例,同时在性能上优于现有的基于扩散的方法。作者利用DFMs方法构建了一个多模态的基于流的建模框架。作者将这一能力应用于蛋白质共同设计任务,在其中作者学习一个联合生成蛋白质结构和序列的模型。作者的方法在共同设计性能上达到了最先进的水平,同时允许同一多模态模型用于灵活生成序列或结构。
DrugAI
2024-07-16
1100
NeurIPS 2024|AlphaFold结合流匹配生成蛋白质系综
今天为大家介绍的是来自Tommi Jaakkola团队的一篇论文。蛋白质的生物学功能通常依赖于动态结构系综。在这项工作中,作者开发了一种基于流的生成模型方法,用于学习和采样蛋白质的构象景观。作者将AlphaFold和ESMFold等高精度的单态预测器重新利用,并在自定义流匹配(Flow Matching)框架下对其进行微调,以获得序列条件的蛋白质结构生成模型,称为AlphaFLOW和ESMFLOW。在PDB上训练和评估时,该方法在精度和多样性上比AlphaFold的MSA子采样方法有显著优势。在对全原子MD的集合进行进一步训练后,该方法能够准确捕捉未见蛋白质的构象灵活性、位置分布和更高阶的系综观测值。此外,该方法可以通过更快的时间收敛于某些平衡特性,将静态PDB结构多样化,展示了其作为昂贵物理模拟代理的潜力。
DrugAI
2024-07-16
830
ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计
今天为大家介绍的是来自Wengong Jin团队的一篇论文。如何设计具有特定功能的蛋白质?作者受到了化学直觉的启发,即几何结构和生化特性都对蛋白质的功能至关重要。因此本文提出了一种新方法SurfPro,能够在给定目标表面及其相关生化特性的情况下生成功能性蛋白质。SurfPro包含一个分层编码器,逐步建模蛋白质表面的几何形状和生化特性,以及一个自回归解码器来生成氨基酸序列。作者在标准逆折叠(inverse folding)的基准测试CATH 4.2和两个功能性蛋白质设计任务(蛋白质结合体设计和酶设计)上对SurfPro进行了评估。SurfPro在各项测试中均优于之前的最先进的逆折叠方法,在CATH 4.2上的序列恢复率达到了57.78%,并且在蛋白质-蛋白质结合和酶-底物相互作用评分方面表现出更高的成功率。
DrugAI
2024-07-16
690
ICML 2024 | 冷静看待大型语言模型在材料发现中的作用
今天为大家介绍的是来自Geoff Pleiss团队的一篇论文。自动化是当代材料发现的基石之一。贝叶斯优化(BO)是这种工作流程中的重要部分,使科学家能够利用先验领域知识高效地探索庞大的分子空间。尽管这些先验知识可以采取多种形式,但围绕大型语言模型(LLM)所包含的辅助科学知识有着显著的关注。然而,现有的工作迄今为止仅探讨了LLM在启发式材料搜索中的应用。实际上,最近的研究从点估计的非贝叶斯LLM中获得了不确定性估计,这是BO的核心部分。在本研究中,作者探讨了LLM是否真的有助于加速分子空间中基于原则的贝叶斯优化。作者采取冷静而客观的态度回答这一问题。具体来说,通过(i)将LLM视为标准但基于原则的BO代理模型的固定特征提取器,以及(ii)利用参数高效的微调方法和贝叶斯神经网络来获得LLM代理模型的后验分布。作者通过真实化学问题的广泛实验表明,LLM在分子BO中是有用的,但前提是它们经过了领域特定数据的预训练或微调。
DrugAI
2024-07-16
810
π-PrimeNovo : 基于非自回归Transformer的快速从头测序模型
结构预测和序列预测是蛋白质组学面临的最为关键的两大挑战。尽管以AlphaFold为首的深度学习模型在结构预测上取得了极大的成功,但蛋白质测序算法仍然缺乏突破进展。基于质谱仪对蛋白质序列测序是获得蛋白质序列的主要手段。传统搜库算法依赖于人工建立的蛋白质序列数据库,因此受限于只能对已有的肽段鉴别。而以深度学习的从头测序(de novo sequencing)算法,则能更好的从已有的数据中总结规律,泛化到数据库中不存在的蛋白序列,从而更好地发现自然界中新的蛋白序列。然而,目前的深度学习de novo测序算法普遍准确率低,速度慢。具体而言,生物序列预测的模型目前都基于NLP(自然语言处理)中流行的自回归模型,利用下一个token的预测模式,去逐个单向的预测蛋白质肽序列。这样的预测方式限制了信息传递,从而导致单个氨基酸无法全面的获取周围信息。此外,自回归模型的解码速度慢,难回溯。因此,上海人工智能实验室、国家蛋白质科学中心(北京)、复旦大学的研究团队合作提出了生物学首个“非”自回归Transformer预测模型--PrimeNovo。同时团队研发了适用于蛋白质序列的可控解码的模块PMC(Precise Mass Control),可以实现生成肽段序列质量精确控制。实验表明 PrimeNovo 在多个广泛应用测测试数据集上体现出了极高的预测准确性,比当前的最优模型, Casanovo-V2, GraphNovo以及PepNet等都有10-30%的肽段绝对准确率的提升。受益于非自回归的一次性生成特性,以及自研的CUDA优化算法,PrimeNovo体现出了相比于SOTA自回归模型高达69倍的速度提高。在多个生物学应用场景,包括宏蛋白质组的鉴定,翻译后修饰发现等都有惊人的表现。
DrugAI
2024-07-05
1050
J. Chem. Inf. Model. | AI驱动的一站式创新药物发现平台DrugFlow2.0
本文介绍一篇浙江大学侯廷军教授团队和碳硅智慧联合发表在计算化学领域权威期刊Journal of Chemical Information and Modeling上发表论文《DrugFlow: An AI-Driven One-Stop Platform for Innovative Drug Discovery》,报导了具有自主知识产权的AI驱动的一站式创新药物发现平台DrugFlow的最新研发进展。DrugFlow2.0涵盖苗头和先导分子发现及优化等药物研发关键环节,集成世界领先的原创分子对接、QSAR建模、成药性预测、分子生成、虚拟筛选算法,并提供用户友好的操作界面,旨在帮助药化专家更高效便捷地发现和设计具有开发潜力的成药分子。
DrugAI
2024-07-05
1410
使用Vabs-Net进行多层次蛋白质预训练
今天为大家介绍的是来自Shuqi Lu团队的一篇论文。近年来,在各种下游任务中基于3D结构的预训练蛋白质模型的发展激增,这代表了预训练蛋白质语言模型的重大进步。然而,大多数现有的基于结构的预训练模型主要关注残留物水平,即α碳原子,而忽略了如侧链原子等其他原子。作者认为,在残基和原子水平上对蛋白质进行建模是很重要的,因为侧链原子对许多诸如分子对接等下游任务也至关重要。然而,作者发现在预训练中天真地结合残基和原子信息通常会失败。一个关键原因是输入中包含原子结构导致的信息泄漏,这使得残差级预训练任务变得微不足道,导致残差表示的表达不足。为了解决这个问题,作者在3D蛋白质链上引入了一个跨度掩模预训练策略,以学习残基和原子的有意义表示。这导致了一种简单而有效的方法来学习适合于各种下游任务的蛋白质表示。结合位点预测和功能预测任务的大量实验结果表明,该预训练方法明显优于其他方法。
DrugAI
2024-07-05
880
Nat. Commun. | 糖结合位点精准预测新算法DeepGlycanSite
糖类是自然界中最丰富的有机物质,对生命至关重要。近年来,对糖类药物的研究显著增加,糖生物工程技术也被列入《国家中长期科学和技术发展规划纲要》确定的重点领域及前沿技术。了解糖类如何在生理和病理过程中调节蛋白质,将有助于解决关键的生物学问题和开发新药。了解该调节过程的第一步是发现糖类的结合位点,但是,受限于糖类的多样性和复杂结构,实验识别蛋白质上的糖类结合位点成本高且效率低,计算方法又面临训练数据有限,模型能力不强的问题,这阻碍了蛋白质糖结合位点的精准识别,也从研究的早期开始就影响了对糖类分子机制的理解和糖类药物的开发。
DrugAI
2024-07-05
1000
ICML 2024 | 通过力引导的SE(3)扩散模型生成蛋白质构象
今天为大家介绍的是来自字节跳动Quanquan Gu团队的一篇论文。蛋白质的构象景观对于理解其在复杂生物过程中的功能至关重要。传统的基于物理的计算方法,如分子动力学(MD)模拟,存在罕见事件采样和长时间平衡问题,限制了它们在一般蛋白质系统中的应用。最近,深度生成建模技术,特别是扩散模型,已被用于生成新颖的蛋白质构象。然而,现有的基于评分的扩散方法无法正确结合重要的物理先验知识来指导生成过程,导致采样的蛋白质构象与平衡分布存在较大偏差。为了解决这些问题,本文提出了一种用于蛋白质构象生成的力引导SE(3)扩散模型——CONFDIFF。通过将力引导网络与基于数据的评分模型混合,CONFDIFF可以生成具有丰富多样性且保持高保真的蛋白质构象。在包括12种快速折叠蛋白质和牛胰岛素抑制剂(BPTI)在内的多种蛋白质构象预测任务上的实验表明,作者的方法优于当前最先进的方法。
DrugAI
2024-07-05
1530
ICML 2024 | WISER:弱监督和支持表示学习来改善癌症的药物反应预测
今天为大家介绍的是来自Kumar Shubham团队的一篇论文。癌症是全球主要的死亡原因之一,由于基因组的变化在患者中表现出异质性。为了推进个性化治疗策略的研究,实验室中通常会实验确定各种药物对从癌症中提取的细胞(‘细胞系’)的效果。然而,由于生物和环境差异,细胞系和人类之间的基因组数据和药物反应分布存在差异。此外,尽管许多癌症患者的基因组资料容易获得,但相应的药物反应数据稀缺,这限制了训练能够有效预测患者药物反应的机器学习模型的能力。最近的癌症药物反应预测方法主要遵循无监督域不变表示学习的范式,然后进行下游的药物反应分类。由于患者对药物反应的异质性和药物反应数据的有限性,在两个阶段引入监督是具有挑战性的。本文通过在第一阶段引入一种新颖的表示学习方法和在第二阶段引入弱监督来应对这些挑战。对真实患者数据的实验结果表明,作者的方法(WISER)在预测个性化药物反应方面优于现有的最先进方法。作者的实现代码可以在https://github.com/kyrs/WISER上找到。
DrugAI
2024-07-05
1050
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档