基因泰克团队：机器学习辅助分子生成前沿进展概述

智药邦

发布于 2024-07-06 08:06:46

1150

发布于 2024-07-06 08:06:46

文章被收录于专栏：智药邦智药邦

随着药物化学领域的不断发展，机器学习（ML）技术逐渐成为加速早期药物发现的重要工具。ML利用药物化学家的经验和设计偏好，将分子生成和筛选步骤整合到一个单一架构中，显著提高了新药研发的效率。然而，由于化学空间的巨大搜索空间和不连续的优化函数，设计出让药物化学家满意的ML模型仍面临诸多挑战。

2024年6月18日，由基因泰克Arian R.Jamasb领导的研究团队在Nature Machine Intelligence上发表文章Machine learning-aided generative molecular design，全面概述了当前利用机器学习模型进行分子设计的最新技术进展，探讨了分子表征、生成方法及优化策略等关键设计决策。

本文介绍了一系列在学术界和工业界中得到实验验证的实际应用，并探讨了生成式ML在部署时面临的理论、计算和经验挑战，以及未来的发展方向。

药物发现和开发是一个复杂且耗时的过程，需要不断优化分子以满足特定的特性，如可溶性、毒性、药代动力学和其他治疗效果。尽管大环肽、生物制剂和寡核苷酸疗法等新型治疗方式已显示出前景，但小分子药物仍是ML领域的主要关注对象。

传统的药物小分子化合物的搜索空间巨大，这使得开发难度高、成本高且容易失败。在过去70年中，工业研发活动每花费1美元所批准的新型分子实体的数量呈指数下降，平均研发成本在10-15年的时间内上升到20多亿美元。然而，在过去十年中，增长主要是由于在药物发现过程中更好地收集和使用了高质量的决策信息和实验数据，这凸显了在研发生命周期中使用ML的机会越来越多。

传统的药物设计方法包括基于配体的药物设计（LBDD）和基于结构的药物设计（SBDD）。LBDD利用已知配体信息来开发定量结构-活性关系方法，而SBDD则通过靶点对接来设计具有高互补性、亲和性和特异性的配体。然而，这些方法依赖于有偏见的人类知识和对化学空间的有限探索，从而限制了其应用范围。

图1 生成式ML辅助分子设计管线

随着计算资源的普及和高质量实验数据的积累，ML在药物发现中的应用潜力逐渐显现。ML技术可以通过表征学习直接从数据中获取分子描述符，提高分子性质预测的准确性，并通过虚拟筛选加速早期药物发现。此外，生成模型作为ML的一个子领域，通过数据驱动的洞察力增强了人类知识，为药物设计提供了新的思路和方法。

生成式分子设计任务

生成式分子设计可以分为两种主要范式：分布学习和目标导向生成。分布学习旨在模拟训练分子集的概率分布，以采样出新的分子。目标导向生成则进一步细分为条件生成和分子优化，通过明确的设计标准来生成具有特定属性的分子。

图2 生成任务、生成策略和分子表征的图解

分布学习

分布学习在药物发现中有两种主要应用。首先，它可以根据学习到的分子分布构建有针对性的虚拟筛选库。其次，通过从分布中采样，生成与训练集相似的分子，有助于设计“me-too”化合物并进行优化。

条件生成

条件生成根据特定的属性、分子结构、靶标或表型条件来生成分子。例如，属性条件生成关注结合亲和力、合成可及性等属性；分子结构条件生成涉及设计部分结构、骨架跳转等；靶标条件生成旨在生成与特定疾病相关靶标具有高结合亲和力的分子；表型条件生成则通过基于细胞的显微镜或其他生物测定读数来指导分子生成。

分子优化

分子优化通过微调候选药物的特性来提高其安全性、有效性和药代动力学特征。这包括对候选药物的分子结构进行微小修改，以优化溶解度、生物利用度和靶点亲和力等特性。

生成式分子设计方法

在设计ML方法时，需要做出几种生成设计选择，包括分子表征、生成方法、生成策略和优化策略。

表1 代表性方法的比较

分子表征

常见的分子表示法包括字符串（如SMILES和SELFIES）、二维拓扑图和三维几何图。字符串表示法通过语法规则编码分子结构，但可能存在无效编码问题；拓扑图和几何图则通过节点和边表示原子和化学键，适用于图神经网络（GNN）建模。

生成方法

深度生成模型包括变异自编码器（VAE）、生成对抗网络（GAN）、归一化流程、自回归模型和扩散模型等。这些方法通过估计数据概率分布并从所学分布中提取样本，生成新的分子结构。

生成策略

生成策略包括一次生成、连续生成和迭代细化。一次生成方法受限于难以生成逼真和可信的高精度分子结构；连续生成方法通过一系列步骤构建分子结构，但需要定义生成轨迹的排序；迭代细化方法通过预测一系列更新来操纵预测，适用于复杂分子的生成。

优化策略

优化策略包括组合优化和连续优化。组合优化技术如遗传算法、蒙特卡洛树搜索和强化学习等，适用于离散编码的分子；连续优化技术如基于梯度的优化和贝叶斯优化等，适用于连续域中表示或编码的分子。

评估生成式ML的设计

在实际应用中，必须对生成的分子进行定性和定量评估。计算评估指标包括有效性、独特性和新颖性，这些指标评估生成有效分子和推断训练数据之外的能力。此外，还需要考虑理化性质、三维结构设计、多样性和合成可及性等指标。实验验证是评估生成分子有效性的最终标准，尽管目前大多数研究仍停留在计算评估阶段。

实验验证与文献观察

文献中报告的实验验证研究大多使用RNN和/或VAE，并在SMILES表示法上运行。实验验证的目标多集中于激酶等热门靶点，且大多数以目标为导向的方法使用强化学习作为优化算法。一些研究成功生成了具有新颖骨架和强效活性的分子，并通过实验验证了其生物活性。工业界的ML辅助商业药物发现活动也越来越普遍，一些公司已将候选药物推进到临床试验阶段。

未来方向

尽管生成式分子设计在加速早期药物发现方面取得了显著进展，但仍面临诸多挑战，如超出分布范围的生成、不切实际的问题表述、低保真、缺乏统一的评估协议和大规模研究等。未来研究应关注以下几个方向：