DrugAI-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展，提供“原创、专业、实例”的解读分享。

专栏成员

1142

文章

762187

阅读量

123

订阅数

Nat. Commun. | 一种深度优化设计的合成抗生素类，用于克服细菌耐药性

nat 开发设计数据优化

今天为大家介绍的是来自华中农业大学的王旭团队的一篇论文。由于缺乏有效对抗抗生素耐药细菌的新药，全球公共卫生问题日益严重。基于本研究，作者通过结构基础药物设计（SBDD）和模块合成开发了一种改良的抗菌药物。确定了最优改良化合物F8，它在体外和体内均显示出对抗耐药细菌的广谱抗菌活性，并有效减缓了耐药性的产生。F8对耐甲氧西林、耐多粘菌素B、耐氟苯尼考（FLO）、耐多西环素、耐氨苄青霉素和耐磺胺甲恶唑的细菌表现出显著的杀菌活性。在耐药菌血症的小鼠模型中，F8被发现能够提高存活率并显著减少感染小鼠体内的细菌负荷。多组学分析（转录组学、蛋白质组学和代谢组学）表明，鸟氨酸氨甲酰基转移酶（arcB）是F8的一个抗菌靶点。进一步的分子对接、等温滴定量热法（ITC）和差示扫描荧光法（DSF）研究验证了arcB是F8的有效靶点。最后，机制研究表明，F8通过竞争性结合arcB，破坏细菌细胞膜并引起一定程度的氧化损伤。在此，作者报告F8作为开发抗生素制剂以对抗耐药细菌相关感染的有前途的候选药物。

2024-07-31

2060

Nat. Commun. | 用SHAMAN识别RNA构象集合中的小分子结合位点

nat 测试工具集合设计

今天为大家介绍的是来自Paraskevi Gkeka以及M. Bonomi团队的一篇论文。用小分子进行RNA的靶向受限于我们对RNA结构和动态特性的理解仍然有限。大多数用于结合位点识别的计算工具依赖于静态结构，因此无法应对RNA分子动态特性带来的挑战。在此，作者介绍了一种名为SHAMAN的计算技术，用于识别RNA结构集中的潜在小分子结合位点。SHAMAN通过原子分子动力学模拟探索RNA的构象，同时借助探针和增强采样技术高效地识别RNA口袋。在包括大型、结构化核开关以及小型、灵活病毒RNA的基准测试中，SHAMAN成功识别了所有实验解析的结合位点。总体而言，SHAMAN为未来以小分子为目标的RNA药物设计工作奠定了坚实的基础，有效解决了该领域长期存在的挑战。

2024-07-30

1140

Nat. Methods | 像t-SNE和UMAP一样看数据

methods 工具论文数据 nat

今天为大家介绍的是来自Vivien Marx的一篇论文。降维有助于可视化高维数据集。使用这些工具时需要谨慎，并且要调整参数。有时，这些方法需要反复思考。

2024-07-30

1920

Science | 使用结构信息语言模型进行蛋白质和抗体复合物的无监督进化

搜索测试模型设计数据

今天为大家介绍的是来自Peter S. Kim团队的一篇论文。基于序列信息训练的大型语言模型能够学习到蛋白质设计的高级原则。然而，蛋白质的三维结构决定了它们的具体功能、活性和进化能力。这里，作者展示了一种结合了蛋白质结构主链坐标的通用蛋白质语言模型可以在不需要建模具体功能任务的情况下指导各种蛋白质的进化。作者还证明了仅在单链结构上训练的ESM-IF1模型可以扩展用于工程化蛋白质复合物。通过这种方法，作者筛选了大约30种用于治疗严重急性呼吸综合征冠状病毒2（SARS-CoV-2）感染的两种治疗性临床抗体的变体。结果表明，对于抗体逃逸的关注病毒变种BQ.1.1和XBB.1.5，分别在中和能力和亲和力上提高了25倍和37倍。这些发现突显了整合结构信息的优势，可以在不需要任何特定任务训练数据的情况下识别高效的蛋白质进化路径。

2024-07-30

1280

Nat. Commun. | 通过异质图学习从空间解析的转录组数据剖析肿瘤微环境

网络 nat 模型数据算法

今天为大家介绍的是来自Luonan Chen团队的一篇论文。空间解析转录组学（SRT）通过分析肿瘤微环境（TME）的细胞内分子网络和细胞间通讯（CCC），实现了对TME的精确剖析。然而，缺乏对细胞、基因和组织区域之间复杂关系的计算探索，极大地限制了对TME复杂结构的解释能力。为此，作者引入了一种异质图（HG）学习方法stKeep，它整合了多模态和基因-基因相互作用，以从SRT数据中解读TME。stKeep利用HG通过结合基因、细胞和组织区域等多种节点特征来学习细胞模块和基因模块，分别识别TME内的细胞状态及其特定的基因-基因关系。此外，stKeep还通过HG推断每个细胞的CCC，并通过对比学习确保不同细胞状态下的CCC模式具有可比性。在各种癌症样本中，stKeep在解析TME方面表现优于其他工具，如检测双能基础细胞群、肿瘤性肌上皮细胞和分布在肿瘤或前沿区域的转移细胞。值得注意的是，stKeep识别出与疾病进展相关的关键转录因子、配体和受体，并通过独立临床数据的功能和生存分析进一步验证，突显其在临床预后和免疫治疗中的应用潜力。

2024-07-30

1450

Adv. Sci. | AI驱动定制化的高性能ESIPT荧光分子的智能挖掘

人工智能高性能开发模型系统

今天为大家介绍一篇近期发表在Advanced Science上的论文：AI-Powered Mining of Highly Customized and Superior ESIPT-Based Fluorescent Probes。论文通讯作者为中南大学董界副教授和曾文彬教授，论文第一作者为硕士研究生黄文智。该论文将机器学习建模预测、量化计算和实验相结合来探索理想的ESIPT荧光分子。作者提出了一种利用人工智能开发多级预测系统的新方法，该系统有助于快速有效地探索可定制的ESIPT荧光分子。通过这种新颖高效的方法，作者成功从57万个化合物中筛选了700多种暂未报导的ESIPT分子，这项工作有望为快速挖掘具备不同骨架类型和理想性质的ESIPT分子带来新的范式。

2024-07-30

780

Nat. Mach. Intell. | 多尺度拓扑Transformer用于蛋白质-配体相互作用预测

数据性能 nat 模型排序

今天为大家介绍的是来自美国密歇根州立大学的Guo-Wei Wei团队的一篇论文。尽管预训练的自然语言处理（NLP）模型在各个领域取得了成功，但它们在计算生物学中的应用受到了阻碍，因为它们依赖于生物序列而忽略了重要的三维（3D）结构信息，这与NLP模型的序列架构不兼容。在此，作者提出了TopoFormer，该模型通过整合NLP模型和一种多尺度拓扑技术——持久拓扑超图拉普拉斯（PTHL）构建而成。PTHL能够系统地将复杂的3D蛋白质-配体复合物在不同的空间尺度上转换为NLP可接受的拓扑不变量和同伦形状序列，捕捉跨越不同空间尺度的基本相互作用。TopoFormer在多个基准数据集中的评分、排序、对接和筛选任务中表现出了出色的准确性和卓越的性能。这种方法可以用于将一般的高维结构数据转换为NLP兼容的序列，为更广泛的基于NLP的研究铺平了道路。

2024-07-30

1220

Chem. Sci. | 从大规模量子化学数据中学习分子力学力场

优化开发模型数据系统

今天为大家介绍的是来自John D. Chodera团队的一篇论文。开发可靠且可扩展的分子力学（MM）力场——这些快速的用于描述分子系统势能面的经验模型——对于生物分子模拟和计算辅助药物设计是不可或缺的。在此，作者介绍了一种通用且可扩展的机器学习MM力场——espaloma-0.3，以及一个使用图神经网络的端到端可微分框架以克服传统基于规则的方法的限制。espaloma-0.3在单个GPU上训练一天即可拟合一个包含超过110万次能量和力计算的多样化量子化学数据集，能再现与药物发现高度相关的化学领域（包括小分子、肽和核酸）的量子化学能量特性。此外，该力场保持了小分子的量子化学能量最小化几何结构，并保留了肽和折叠蛋白的凝聚相特性，自洽地参数化蛋白质和配体，生成稳定的模拟结果，从而高度准确地预测结合自由能。此方法展示了系统构建更准确且易于扩展到新化学领域的力场的显著潜力。

2024-07-30

730

无回归器引导的药物反应预测方法

性能模型数据算法网络

今天为大家介绍的是来自武汉大学胡文斌团队的一篇论文。药物反应预测（DRP）是药物发现中的一个关键阶段，其评估的最重要指标是IC50分数。DRP的结果在很大程度上取决于生成分子的质量。现有的分子生成方法通常采用基于分类器的指导，允许在IC50分类范围内进行采样。然而，这些方法无法确保采样空间范围的有效性，导致生成了大量无效分子。通过实验和理论研究，作者假设基于目标IC50分数的条件生成可以获得更有效的采样空间。因此，作者引入了无回归器指导的分子生成方法，以确保在更有效的空间内进行采样，支持DRP。无回归器指导结合了扩散模型的分数估计与基于数值标签的回归控制模型的梯度。为了有效映射药物和细胞系之间的回归标签，作者设计了一个常识数值知识图谱以限制文本表示顺序。对DRP任务的真实世界数据集的实验结果表明，该方法在药物发现中是有效的。代码可在以下网址获得：https://anonymous.4open.science/r/RMCD-DBD1。

2024-07-19

820

MolFlow: 高效3D分子生成方法

设计数据性能架构模型

今天为大家介绍的是来自查尔姆斯理工大学的Simon Olsson团队的一篇论文。最近，3D药物设计的生成模型因其在蛋白质口袋中直接设计配体的潜力而获得了广泛关注。然而，目前的方法通常存在采样时间非常慢或生成分子的化学有效性差的问题。为了解决这些限制，作者提出了Semla，一个可扩展的E(3)-等变消息传递架构。作者进一步介绍了一个分子生成模型MolFlow，该模型使用流匹配和尺度最优传输进行训练，这是等变最优传输的一种新扩展。作者的模型在基准数据集上仅需100个采样步骤就能产生最先进的结果。关键是，MolFlow在不牺牲性能下只需20个步骤就能采样出高质量分子，相比于现有技术实现了两个数量级的速度提升。最后，作者比较了MolFlow与当前方法在生成高质量样本方面的能力，进一步展示了其强大性能。

2024-07-18

900

Nat. Commun. | 使用Umol从序列预测蛋白质-配体复合物结构

开发模型网络系统 nat

今天为大家介绍的是来自Frank Noe团队的一篇论文。蛋白质-配体对接是药物发现和开发中的常用工具，可以筛选出潜在的治疗物进行实验测试。然而，这需要高质量的蛋白质结构，通常蛋白质会被处理成完全或部分刚性的。作者开发了一种AI系统，可以直接从序列信息预测蛋白质-配体复合物的全原子灵活结构。作者发现传统的对接方法仍然更优越，但依赖于目标蛋白质的晶体结构。除了预测灵活的全原子结构外，预测的置信度指标（plDDT）还可以用于选择准确的预测结果以及区分强和弱结合物。Umol工具可在：https://github.com/patrickbryant1/Umol 获取。

2024-07-17

1600

Commun. Biol. | BrainTACO: 一个可探索的多尺度多模态大脑转录组和连接性数据资源

数据网络工具可视化连接

今天为大家介绍的是来自Katja Buhler团队的一篇论文。探索基因与大脑回路之间的关系，可以通过联合分析来自3D成像数据、解剖数据以及不同尺度、分辨率和模态的大脑网络的异构数据集来加速。为了超越各个资源原始目的的单一视角而生成一个综合视图，需要将这些数据融合到一个共同的空间，并通过可视化手段弥合不同尺度之间的差距。然而，尽管数据集不断扩展，但目前很少有平台能够整合和探索这种异构数据。为此，作者推出了BrainTACO（Brain Transcriptomic And Connectivity Data，大脑转录组和连接性数据）资源，这是一个将异构的、多尺度的神经生物学数据空间映射到一个常见的、分层的参考空间，并通过整体数据整合方案进行组合的选择。为了访问BrainTACO，作者扩展了BrainTrawler，这是一个基于网络的空间神经生物学数据的可视化分析框架，并增加了对多个资源的比较可视化。这使得大脑网络的基因表达分析有着前所未有的覆盖范围，并允许识别在小鼠和人类中可能对连接性发现有贡献的潜在遗传驱动因素，这有助于发现失调连接表型。因此，BrainTACO减少了计算分析中通常需要的耗时的手动数据聚合，并通过直接利用数据而不是准备数据来支持神经科学家。BrainTrawler，包括BrainTACO资源，可以通过网址https://braintrawler.vrvis.at/访问到。

2024-07-16

1210

Adv. Mater. | 量子化学与机器学习在能量与性质预测上的演变

数据系统机器学习神经网络模型

今天为大家介绍的是来自多伦多大学的Alán Aspuru-Guzik团队的一篇论文。计算化学是理解分子和预测化学性质的重要工具。然而，由于求解薛定谔方程的困难以及随着分子系统规模增加而带来的计算成本的增加，传统的计算方法面临着重大挑战。为此，利用人工智能（AI）和机器学习（ML）技术进行计算实验引起了极大的兴趣。将AI和ML引入计算化学可以提高化学空间探索的可扩展性和速度。然而，在ML模型的可重复性和可转移性方面挑战依然存在。这篇综述强调了ML在学习、补充或替代传统计算化学以进行能量和性质预测方面的演变。从完全基于数值数据训练的模型开始，向着包含或学习量子力学物理规律的理想模型迈进。本文还回顾了现有的计算方法和ML模型及其相互结合，概述了未来研究的路线图，并确定了改进和创新的领域。最终目标是开发能够预测薛定谔方程准确且可转移解的AI架构，从而彻底变革化学和材料科学中的计算实验。

2024-07-16

1810

J. Chem. Inf. Model. | 自动监测化学反应的核磁谱图识别算法MatCS

model 模型数据算法性能

华东理工大学/华东师范大学的李洪林教授/刁妍妍团队在Journal of Chemical Information and Modeling上发表文章：Enhancing Chemical Reaction Monitoring with a Deep Learning Model for NMR Spectra Image Matching to Target Compounds，报道了一个用于自动化学反应监测的深度学习模型MatCS。该模型旨在通过预测目标化合物的SMILES和核磁共振光谱（包括1H NMR和13C NMR）谱图之间的对应关系，实现对化学反应进程的自动监测。

2024-07-16

1670

ICML 2024 | 人类与生成式AI内容创作竞赛：共生还是冲突？

模型数据效率游戏流量

今天为大家介绍的是来自Fan Yao等人发表的一篇论文。生成式AI（GenAI）技术的出现对内容创作领域产生了变革性的影响，提供了多样化和高质量内容的替代生产方法，从而重塑了在线生态系统，但也引发了市场过度饱和和人类创造力边缘化的担忧。作者的研究引入了一种从Tullock竞赛模型推广的竞赛模型，以分析人类创作者和GenAI之间的张力。作者的理论和模拟表明，尽管存在挑战，人类与AI生成内容之间的稳定平衡是可能的。作者的研究有助于理解内容创作行业的竞争动态，为人类创造力与GenAI技术进步之间的未来互动提供了见解。

2024-07-16

1090

Brief. Bioinform. | 深度学习赋能表型药物发现

深度学习测试模型数据性能

今天为大家介绍的是近期发表在Briefings in Bioinformatics的综述文章。该文章由佛罗里达大学李彦君课题组完成，题为“Morphological profiling for drug discovery in the era of deep learning”。该研究探讨了深度学习在细胞形态学分析以及表型药物发现中的创新应用。

2024-07-16

1910

ICML 2024 | 情境化的策略恢复：用自适应模仿学习来建模和解释医疗决策

医疗代理集群模型数据

今天为大家介绍的是来自卡内基·梅隆大学的Eric P. Xing团队的一篇论文。可解释策略学习旨在从观察到的行为中估计可理解的决策策略；然而，现有模型在准确性和可解释性之间存在权衡，这限制了基于数据的人类决策过程的解释。从根本上说，现有方法之所以受到这一权衡的困扰，是因为它们将底层决策过程表示为一个通用策略，而实际上人类决策是动态的，可以在不同情境下发生显著变化。因此，作者开发了情境化策略恢复（CPR），将复杂决策过程的建模问题重新定义为一个多任务学习问题，每个情境代表一个独特的任务，可以通过多个简单的情境特定策略逐步构建复杂的决策策略。CPR将每个情境特定策略建模为一个线性映射，并随着新的观测数据的加入生成新的策略模型。作者提供了两种CPR框架的实现方式：一种侧重于精确的局部可解释性，另一种保留了完整的全局可解释性。作者通过模拟数据和实际数据进行了评估，在预测重症监护病房中的抗生素处方和预测阿尔茨海默症患者的MRI处方方面，达到了最先进的性能。通过这一改进，CPR弥合了可解释方法和黑箱方法之间的准确性差距，允许对情境特定决策模型进行高分辨率的探索和分析。

2024-07-16

940

ICML 2024 | MH-pFLID：通过注入和蒸馏的模型异构个性化联邦学习用于医疗数据分析

医疗数据分析联邦学习模型数据

今天为大家介绍的是来自Tianyu Luan团队的一篇论文。联邦学习广泛应用于医疗领域，用于在不需要访问本地数据的情况下训练全局模型。然而，由于客户间不同的计算能力和网络架构（系统异构性），从非独立同分布（non-IID）数据中有效聚合信息面临着重大挑战。当前使用知识蒸馏的联邦学习方法需要公共数据集，这会引发隐私和数据收集问题。此外，这些数据集需要额外的本地计算和存储资源，这对于硬件条件有限的医疗机构来说是一个负担。在本文中，作者引入了一种新颖的联邦学习范式，称为基于注入和蒸馏的模型异构个性化联邦学习（MH-pFLID）。作者的框架利用一个轻量级的信使模型来收集每个客户的信息。作者还开发了一套接收器和发射器模块，用于接收和发送来自信使模型的信息，以便高效地注入和蒸馏信息。作者的框架消除了对公共数据集的需求，并在客户之间高效地共享信息。作者在各种医学任务上的实验表明，MH-pFLID 在所有这些领域均优于现有的最先进方法，并具有良好的泛化能力。

2024-07-16

2250

ICML 2024 | 离散状态空间上的生成流：实现多模态流及其在蛋白质共同设计中的应用

数据性能框架模型设计

今天为大家介绍的是来自Tommi Jaakkola团队的一篇论文。结合离散数据和连续数据是生成模型的重要能力。作者提出了离散流模型（DFMs），这是一种新的基于流的离散数据模型，弥补了在多模态连续和离散数据问题中应用基于流的生成模型的缺失环节。作者的关键见解是，可以使用连续时间马尔可夫链实现连续空间流匹配的离散等价形式。DFMs从一个简单的推导出发，包括离散扩散模型作为特定实例，同时在性能上优于现有的基于扩散的方法。作者利用DFMs方法构建了一个多模态的基于流的建模框架。作者将这一能力应用于蛋白质共同设计任务，在其中作者学习一个联合生成蛋白质结构和序列的模型。作者的方法在共同设计性能上达到了最先进的水平，同时允许同一多模态模型用于灵活生成序列或结构。

2024-07-16

1430

NeurIPS 2024｜AlphaFold结合流匹配生成蛋白质系综

开发框架模型集合架构

今天为大家介绍的是来自Tommi Jaakkola团队的一篇论文。蛋白质的生物学功能通常依赖于动态结构系综。在这项工作中，作者开发了一种基于流的生成模型方法，用于学习和采样蛋白质的构象景观。作者将AlphaFold和ESMFold等高精度的单态预测器重新利用，并在自定义流匹配（Flow Matching）框架下对其进行微调，以获得序列条件的蛋白质结构生成模型，称为AlphaFLOW和ESMFLOW。在PDB上训练和评估时，该方法在精度和多样性上比AlphaFold的MSA子采样方法有显著优势。在对全原子MD的集合进行进一步训练后，该方法能够准确捕捉未见蛋白质的构象灵活性、位置分布和更高阶的系综观测值。此外，该方法可以通过更快的时间收敛于某些平衡特性，将静态PDB结构多样化，展示了其作为昂贵物理模拟代理的潜力。

2024-07-16

1690

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态