Drug Discov Today｜MD安德森癌症中心：利用AI增强临床前药物发现

智药邦

发布于 2021-12-08 15:38:50

5240

发布于 2021-12-08 15:38:50

文章被收录于专栏：智药邦

2021年11月25日，来自美国得克萨斯大学MD安德森癌症中心的Jason B. Cross和瑞典乌普萨拉大学的Vasanthanathan Poongavanamb等人在Drug Discovery Today合作发表综述“利用人工智能增强临床前药物发现”。

以下是全文内容。

亮点

• 人工智能驱动的药物研发平台在制药领域稳步增加。

• 人工智能在药物发现和开发中都有应用。

• 预测模型的鲁棒性取决于训练数据的大小和质量。

• 可解释AI提供的结果透明，信息丰富且具有可理解性。

摘要

人工智能（AI）正在成为药物发现不可或缺的一部分。‎它有可能在整个药物发现和开发的价值链中发挥作用‎，从靶点识别开始，一直到临床开发。在这篇综述中，我们概述了当前的人工智能技术，并通过突出人工智能产生真正影响的案例，总结了人工智能如何重新构建临床前药物发现。考虑到AI药物发现中的兴奋和夸张，我们通过讨论其中的机遇和挑战，提出了现实的观点。

前言

药物发现是一个漫长、复杂且高风险的过程。开发一种新药通常需要10-15年，成本高达28亿美元，而80-90%在临床上失败。其中临床II期PoC（proof-of-concept）试验的失败次数最多。尽管与前十年相比，美国食品和药物管理局（FDA）等监管机构批准的新分子实体（NME）数量在过去十年（2010-2019年）有所增加，但因为监管措施和新模式的出现，将新药推向市场的成本急剧上升。导致药物创新成本增加的关键驱动因素包括后期临床损耗造成的投资损失，日益严格的监管体系（为批准设定了很高的标准），以及更高的临床试验成本（特别是对于关键试验）。鉴于这些现实，制药和生物技术公司激励创新和采用新技术，以提高生产力，降低成本并确保可持续性。

人工智能正在塑造整个行业的发展，包括医疗保健（IBM Watson Health和谷歌的DeepMind Health）。不出所料，生物制药行业也认识到人工智能的潜在价值，并对采用人工智能驱动的发现平台表现出浓厚的兴趣，希望简化研发工作，减少发现时间和成本，并提高效率。大型制药公司在人工智能技术方面进行了大量投资，包括股权投资、收购或与以人工智能为重点的公司建立合作伙伴关系、发展内部能力或多种方法的组合。合作伙伴关系似乎侧重于快速跟踪新疗法的开发，对"无药可及"靶点进行药物治疗，通过识别新靶点扩大靶点组合，以及提高临床成功的总体概率。IBM、微软、亚马逊和谷歌等大型科技公司在人工智能领域拥有专业知识和能力，它们也在进军药物发现领域。已经建立的公私合作计划，如ATOM联盟（https://atomscience.org），其使命是使用数据驱动的建模来改变药物发现。

今天用于药物发现的AI技术是从早期的机器学习（ML）和化学信息学概念演变而来的。例如，运用ML开发定量构效关系（QSAR）模型和毒性预测专家系统由来已久。近年来，大数据，高级分析，GPU加速计算，云处理，算法开发和AI工具包的民主化推动了这些技术的广泛使用。

可以在整个药物发现和开发过程中应用人工智能技术（图1a）。有证据表明，临床疗效不佳是临床II期研究损耗的首要原因，强调靶点选择仍然是药物发现中最关键的决策之一。鉴于这一现实，人们希望通过运用AI技术来改善靶点选择过程。人工智能驱动的发现平台可以从大量复杂、不同的多组学数据中提取和合成与靶点相关的信息，从而更好地了解靶点生物学，发现疾病与靶点的关联，并识别与疾病有密切联系的靶点。TargetDB就是这样一个例子，它集成了给定靶点的公开可用数据，并使用基于ML的分类系统对靶点的可追踪性进行分类。TargetDB中使用的方法和评分系统为配体性评估和药物开发靶点的优先级提供了有用的标准。

图 1 （a）临床前药物发现过程的示意图，包括可将人工智能用作预测工具的任务。（b）人工智能驱动的设计-制造-测试-分析周期的说明，包括如何将人工智能应用于每个步骤的示例。

一旦确定了感兴趣的靶点并进行了验证，药物发现的下一阶段就是确定与靶点结合并调节靶点的苗头化合物（Hits）。虽然有一系列可用的hit发现方法，但虚拟筛选（VS）是一种具有成本效益且节省资源的方法，用于在初级测定中优先评估化合物子集。使用AI驱动的方法来提高VS的性能正在增加。人工智能驱动的VS已经确定了针对看似困难的药物靶点的新型化学hits，从而将无药可及的靶点变成可处理的药物靶点。

为了确保hits的质量得到改进，研究人员已经使用计算方法来识别、优先排序和选择hit化合物，这一过程称为hit分类。ML 模型现在正用于自动化和提高hit分类过程的效率。

快速、准确、可靠地预测结合自由能以实现VS和基于结构的设计仍然是一项重大挑战，包括对来自VS的化合物进行排名排序。近年来，在蛋白质-配体复合物数据库上训练的基于ML的评分函数在提高VS的命中率方面显示出巨大的希望。与传统的评分函数不同，基于ML的评分函数可以潜在的分析难以建模的结合作用，并且不受任何预定义函数形式的约束。随着"按需制作"库的出现和化合物的筛选库超过十亿关卡，传统的对接方法变得不切实际。与分子对接集成的主动学习方法，为通过迭代筛选对化学空间的高效探索提供了一种优雅的解决方案。

先导物优化（lead optimization, LO）阶段是临床前药物发现中最昂贵和最耗时的阶段。它本质上是一种多参数优化（MPO）问题，目的是鉴定具有最佳平衡的类药物性质的化合物，同时保持足够的活性。达到这个"最佳点"具有挑战性，因为它涉及同时优化多个且经常相互竞争的性质，例如安全性、特异性、功效和药代动力学（PK）特性，同时保持活性。

LO涉及设计-制造-测试-分析（DMTA）周期的迭代轮次（图1b），缩短这些周期对于加速LO过程至关重要。依靠AI引导的衍生式建模进行化合物设计的衍生化学，在缩短周期和设计化合物方面取得了成功。生成建模平台还集成了吸收、分布、代谢、排泄和毒性（ADMET）终点的各种预测模型，以指导设计和选择具有满足 LO 定义标准的有利特性的化合物。通过这种方式，生成化学可以自动化并缩短DMTA周期的"设计"阶段，并抵消分子设计过程中的个体认知偏差。

人工智能在计算机辅助合成计划（CASP）方面也取得了进展，这在识别hit和提高DMTA循环效率方面都很有价值。人工智能辅助合成计划可帮助化学家客观地选择目标分子最有效和最具成本效益的合成路线，从而加速DMTA循环的"制造"阶段。自动化连续流动化学合成是另一项有望彻底改变有机合成的新兴技术。该技术通过集成智能自动化和智能合成开辟了新的途径，从而实现了完全自主的合成。

关闭DMTA周期的循环是"分析"阶段。为了提高DMTA循环效率，必须将数据转化为知识，以便为下一次迭代提供更好的设计建议。鉴于药物发现中数据的稀疏和不均匀性，结合稀疏数据AI方法（例如少样本学习）进行数据分析，可以提取有价值的见解，为下一轮设计周期提供信息。人工智能的另一个实际应用是使用深度插补方法来处理药物发现中经常生成的嘈杂、稀疏、缺失和截断的数据。深度插补方法结合深度学习和统计插补方法，学习实验终点之间的相关性，获得有价值的信息，甚至从最小的实验数据中获取有价值的信息，以更准确地填补缺失的实验值。这些技术可以帮助建立测定-测定相关性并建立多靶点QSAR模型，这些模型可用于针对蛋白靶标家族（如激酶）的计算机脱靶谱分析。

以新疗法的形式将临床前发现转化为临床实践是临床开发中的最大挑战之一，而且临床候选药物往往在翻译过程中丢失。为了弥合这种"转化差距"，早在LO阶段就越来越多地整合转化策略，以提高II期和III期临床成功率，这在肿瘤药物发现计划中更为明显。为此，使用转化生物标志物提供有关靶点调节，靶点参与，确认机制证明（POM）的信息，并用于设计分层临床试验，用于降低临床开发的风险。人工智能技术通过整合大量异构和高维组学数据集来学习隐藏和有意义的模式的能力，为转化生物标志物的发现提供了有价值的见解。随着人工智能技术的不断创新，人工智能在药物发现中的应用也将继续增加。

用于药物发现的 AI 工具箱

人工智能从不同学科中汲取灵感，汇集了许多技术，如ML、深度学习（DL）和数据分析。这也导致了用于描述AI的词汇量不断增长。尽管这些术语通常很混乱，可以互换使用，但它们具有不同的含义和相互关系，包括数据要求、复杂性、透明度和功能等属性。一般来说，AI是一个总称，被认为是ML的超集，ML本身就是DL的超集（图2a）。表1总结了AI算法及其在临床前药物发现中的应用。

图 2 （a）人工智能的架构。（b）机器学习（ML）相关方法的示意图和（c）基于任务的分类说明。（d）深度神经网络的简单示意图。

ML 算法旨在构建模型，通过识别复杂模式并预测未知数据的结果，而无需显式编程，从而从特定问题的训练数据中学习。由于这些原因，它们被广泛用于临床前药物发现。并已成功用于预测生物活性、ADMET终点和理化特性，并具有更高的准确性。ML 算法大致分为监督、无监督和强化学习（RL）（图 2b）。ML 算法的选择取决于许多因素，包括数据集和问题类型。

监督学习方法使用标记数据来训练模型，一旦经过训练，这些模型就可用于预测未知数据的结果。这些算法可以处理分类和连续数据，通常用于基于分类和回归的建模方法。根据具体的分类任务，分类可以进一步分为二元、多类和多标签（图 2c）。它们已被证明在多个实例中优于归纳学习方法，并已用于相似性搜索，预测生物活性和其它感兴趣的特性。内核方法，如支持向量机（SVM），可以映射高维向量空间，允许超越经典分子描述符和指纹（例如，MACCS密钥和扩展连接指纹）的分子特征化。监督ML算法除了提供搜索最佳模型时的超参数优化选项，还可以处理高维数据，以克服"维数诅咒"，以及QSAR建模中经常遇到的共线性问题。据一篇关于在药物发现中使用AI的综述报道，随机森林（RF）、SVM和其它回归算法是2014年至2018年间领先制药公司最广泛使用的ML技术。

相反，无监督学习算法是在未标记的输入数据上进行训练的，并且通常用作探索性数据分析的一部分，例如聚类和降维。一些标准的无监督学习算法包括 kappa 均值聚类（k 均值）、分层聚类、主成分分析（PCA）、自组织映射（SOM）和随机邻居嵌入（t-SNE）。这些方法通常称为降维技术，并提供了一种将高维数据投影到低维空间中以进行可视化的方法。它们通常用于药物设计，用于开发QSAR模型（PCA-MLR建模），设计筛选库，聚类，数据探索以及比较和可视化大型化合物库的化学空间。一些监督学习算法，如SVM和神经网络（NN），也可以支持无监督学习。

与监督和无监督学习不同，RL系统使用先前操作和经验的反馈与环境不断交互，以实现其目标。每次RL代理执行操作时，它都会利用一个目标函数，如果输出可接受，则奖励该目标函数，如果输出不可接受，则惩罚该目标函数。RL 算法的目标是确定最大化奖励函数的最优策略。RL算法如生成张量强化学习（GENTRL）和结构进化的强化学习（ReLeaSE），已被用于在建模期间设计生成所需特性的分子。

DL 是 ML 的一个子集，属于更广泛的人工 NN （ANN）算法家族。它是目前最先进的AI技术，可以被描述为一类表示学习技术。ANN算法受到人脑结构的启发。因此，ANN架构包含许多称为神经元的处理元素，这些元素被组织成多层。该网络包括输入节点和由隐藏节点层连接的输出节点层（图2d）。每个隐藏节点都有一个关联的权重、激活函数和偏差函数，用于转换输入数据以进行预测。DL中的术语"深度"是指具有多层的ANN，隐藏层的数量表示网络的深度。DL方法包含多个隐藏层，而不是传统的"浅层学习"ML方法，后者通常包含一个或两个隐藏层。虽然深度学习方法使用深度和专门的架构以自动方式从非结构化数据中学习和提取更高级别的特征，但它们也需要大量的训练数据。深度学习算法和浅层学习 ML 算法之间的另一个关键区别是，深度学习算法随数据扩展，而浅层学习 ML 算法在一定的性能水平上收敛。药物发现中使用的一些流行的DL架构包括卷积NN（CNN），图CNN（GCNN），自动编码器（AE）和循环NN（RNN）。

CNN是药物发现中最常用的DL方法。CNN架构由多层神经元组成，每个神经元都与前一层中所有神经元完全连接。它通常包含几个以交替方式出现的卷积层和池化层，这些层能够学习任何高度非线性的函数。在从实验蛋白质 - 配体复合结构中提取的3D原子网格上训练的深度CNN模型现在正用于基于结构的VS和属性预测。它们可以成功地模拟小分子与蛋白质结合的非线性复杂现象，并对属性预测有显著改进。其它深度学习架构（如RNN）也已用于生成建模和集中库。

表1 ML和DL算法及其在临床前药物发现中的应用

人工智能在药物发现中的成功应用

在过去几年中，已经发表了几篇综述，强调了人工智能在药物发现中的新兴作用。因此，在这里我们重点介绍一些人工智能对小分子药物的发现产生了真正影响的成功案例。

药物靶点的结构支持和结合位点比较

用于药物与靶点结合的原子分辨率结构信息可用于指导hit鉴定（基于结构的VS），片段筛选（基于片段的药物发现;FBDD）和配体优化（基于结构的药物设计, SBDD）。靶点的结构信息还提供了对选择性驱动因素、耐药机制、作用模式、变构口袋识别和新型药物靶点配体评估的见解。尽管在X射线晶体学，核磁共振波谱和单粒子冷冻电镜方面取得了技术进步，但只有∼35%的人类蛋白质组的结构覆盖率。在许多情况下，这种结构覆盖通常仅限于多结构域蛋白的单个结构域。因此，已知蛋白质序列的数量与实验解决的结构数量之间仍然存在差距。重要的是，药物相关蛋白质靶点家族（如G蛋白偶联受体（GPCRs）和离子通道）的结构覆盖率在蛋白质数据库（PDB）等数据库中仍未得到充分体现。

在没有实验结构的情况下生成蛋白质3D结构的另一种方法是使用计算结构预测方法。同源建模一直是弥合序列-结构差距的传统方法。它基于给定其氨基酸序列的同源（模板）蛋白质的实验结构来预测未知（靶）蛋白质的3D结构。已经证明，序列同源性低至30%的同源建模结构通常适用于SBDD。对于缺乏同源结构的蛋白质，准确的结构预测仍然是一个挑战；然而，基于DL的方法的进步以及将共进化数据集成到建模中已经振兴了蛋白质结构预测领域。基于DL的算法，如CNN、RNN、变分自动编码器（VAE）和生成对抗网络，即使在没有模板结构的情况下，蛋白质结构预测也取得了更高的成功率。

使用DL方法进行蛋白质结构预测成为中心舞台，在CASP14竞赛中，基于Deep卷积残留网络（ResNet）的AlphaFold2程序取得了显著成功。AlphaFold2由DeepMind技术开发，使用PDB的170，000个蛋白质结构上训练的DNN架构来预测氨基酸对之间的距离分布以及连接蛋白质中这些氨基酸的化学键之间的扭转角。此外，它还使用来自多个序列比对的进化信息和端到端折叠方法进行结构预测。AlphaFold2背后的方法和架构最近已经发布。

为了评估结构预测的准确性，CASP使用全局距离测试（GDT）指标来量化模型和实验结构之间的残差对应关系。GDT的分数意味着预测精度与实验方法相当（图3）；AlphaFold2在所有靶标中均获得了92.4 GDT的中位数分数。CASP14竞赛的结果表明，深度学习方法可以达到与实验结构相当的令人印象深刻的精度水平。DeepMind与EMBL-EBI合作，向科学界免费提供了AlphaFold2预测的3D结构，这些结构为98.5%的人类蛋白质组提供了结构覆盖。受到AlphaFold2的想法和成功的启发，由David Baker领导的学术团队还开发了一个名为RoseTTAFold的三轨NN程序。

图3 实验（红色）和AlphaFold2（蓝色）预测的蛋白质结构的比较

虽然这些发展标志着蛋白质结构预测的进步，但现在说人工智能已经破解了蛋白质折叠问题，或者它对药物发现是否会产生变革性影响还为时过早。AlphaFold2在PDB的170,000多种蛋白质结构上进行了训练，任何学习模型都只能与训练数据一样好。基于SCOP版本2数据库的PDB中折叠次数的当前估计是1388，而自然界中的折叠次数预计为4000-10000。因此，PDB中有许多新颖的折叠、拓扑和架构，并且该数据库中的序列和蛋白质家族也存在相当大的冗余。此外，预测多结构域蛋白、多聚体蛋白复合物和膜蛋白的结构可能是使用AI更难解决的问题。尽管如此，DeepMind的技术有望推进结构生物学和从头蛋白质设计，并推动药物发现。

在结构基因组学尺度上比较蛋白质结合口袋是基于结构的药物设计的一项有价值的练习。它提供的信息可以帮助理解选择性，预测脱靶概率，提供对药物再利用的见解，并帮助蛋白质功能注释。传统的口袋比较方法使用例如图论，几何散列，类型化三角形，球面谐波和结合位点原子的物理化学性质来表示，来计算结合位点之间的无序列相似性。这些基于直觉的特征化方案可能会引入人为偏见，并且通常无法在数千个结合位点上扩展。

DNN算法的引入使得能够构建强大的基于体素的特征表示，可以编码分子属性并将结合位点矢量化为描述符向量。可由DeeplyTough实现，它使用3D可操纵的CNN以无对齐的方式比较结合位点。这是通过将蛋白质口袋的3D表示编码到描述符向量中来实现的，该载体可用于计算成对的欧氏距离以量化口袋相似性。它是在TOUGH-M1数据集上进行训练的，该数据集是具有约100万个数据点的小分子结合口袋的非冗余且具有代表性的数据集。它包括一个正子集，该子集包含结合化学上相似配体的不同蛋白质，以及一个负子集，包含结合化学上不同配体的不同蛋白质。针对两个独立构建的数据集（Vertex 和 ProSPECCT）评估了性能，DeeplyTough 展示了与现有方法用时缩短的竞争结果。

使用 AI 增强虚拟筛查

与实验筛选方法（如高通量筛选）相比，VS是一种计算技术，为鉴定hit提供了一种互补且具有成本效益的方法。VS不是从筛选集合中物理筛选出每种化合物，而是使用计算技术来确定化合物子集的优先级，以便在初级测定中进行评估。

"按需制作"筛选库的规模不断扩大，从功能基因组学筛选中鉴定出的高价值、具有挑战性的药物靶点数量不断增加，这对传统的VS技术提出了重大挑战。因此，增强VS方法并帮助有效探索hit识别的化学空间在AI药物发现中获得了相当大的关注。

基于配体的虚拟筛选

基于配体的VS（LBVS）技术旨在基于分子相似性原理，使用已知活性物质（有时是非活性物质）的模型从化学库中鉴定活性化合物。它们包括相似性搜索、药效团映射、形状匹配和预测建模。

VS 的预测建模是经典 QSAR 建模范式的扩展。经典 QSAR 使用同源序列上的统计数据建模方法来构建解释模型，以回顾性方式量化 SAR 趋势。访问大量化学基因组学数据（PubChem的生物测定和 ChEMBL 数据库)和可以处理大型数据集的ML和DL算法的进步为QSAR建模作为VS技术提供了新机遇。已经报道了许多基于 QSAR 的 VS 工作流在hit识别方面的成功应用。Zhang等描述了基于ML的VS QSAR工作流程的成功实施，该工作流程推动了新型抗疟药的发现。作者使用两种ML算法（SVM和kNN）开发了一个二进制分类器模型（活性或非活性），该模型使用具有已知抗疟活性的3133种化合物进行训练。QSAR模型用于对ChemBridge数据库进行VS，并选择174种化合物进行恶性疟原虫生长抑制和细胞测定的后续筛选。实验验证显示，选定的25种化合物具有活性，产生14.2%的命中率，最有效的命中EC50值为 95.6 nM。随后，许多研究报告了基于ML和DL的QSAR工作流程作为有前途的VS工具的应用。

在过去十年中，研究已经转向基于Web的化学信息学工作台，这些工作台简化并自动化了VS的基于ML和DL的QSAR工作流程。Liu等人开发了一种用户友好的开源Web服务器，称为DeepScreening，它允许用户使用ChEMBL生物活性数据或用户提供的VS数据集来构建和验证RNN模型。DeepScreening还根据ChEMBL24收集的生物活性数据为1251个目标提供预构建的DNN模型。这种用户友好的界面和预构建的QSAR模型的可用性使QSAR专家和非专家能够针对感兴趣的特定目标执行VS。DpubChem是另一个开源 Web 服务器，它使用 ML 方法通过 PubChem 数据衍生分类 QSAR 模型。

虽然PubChem和ChEMBL等化学基因组数据库提供了足够的生物活性数据来构建模型，但使用这些资源仍然存在重大陷阱。主要问题是存在异质来源的生物活性数据，以及给定靶点的活性与非活性化合物的比例不平衡。与其它虚拟筛选方法相比，普遍使用公共数据集实现基于QSAR的VS工作流程更加困难。

基于结构的虚拟筛选

SBDD中应用的常见计算策略是分子对接，它在许多结构上支持的药物发现计划中起着至关重要的作用，从hit鉴定到LO和结合模式预测。对接过程涉及预测结合位点内的结合配体构象（姿势预测），然后估计其结合亲和力（评分）。鉴于深度学习的重大进展，AI方法的应用在SBDD中变得越来越普遍。与依赖于特征工程的浅层学习AI方法不同，深度学习可以自动学习并从3D结构数据中提取特征。因此，在图像识别中流行的DL方法现在正被应用于通过多层特征提取从蛋白质-配体复合物中提取和推广结构特征。这为在 SBVS、结合模式预测和结合关联估计中使用 AI 方法提供了机会。在对接过程中使用ML和DL算法进行pose预测和评分已被证明在评分能力（根据结合亲和力对顺序化合物进行排名的能力），对接能力（区分原生pose和诱饵pose的能力）和筛选能力（区分结合和非结合的能力）方面具有卓越的性能。

AtomNet®是第一个基于结构的应用程序，它使用深度CNN框架来预测结合亲和力。它使用3D网格方法将结合位点中每个原子的环境编码为体素化的特征向量，并在包含78,000个活性物质和2,000,000个诱饵的ChEMBL数据集上进行训练，跨越290个靶点。有趣的是，使用DUD-E基准数据集进行的基准研究显示出令人印象深刻的性能，AtomNet®在57.8%的靶标上实现了大于0.9的曲线下面积（AUC），远远超过了传统对接方法。

使用对接对配体进行准确的结合模式预测是 SBDD 中的一个关键挑战。虽然结合自由能是一个宏观的可观察量，涉及两个状态（有界和无界）之间分区函数的比率，通常认为，使用实验技术（例如X射线晶体学）观察到的结合模式对应于最低能量。因此，大多数经过参数化以概括结合亲和力的经典评分函数又用于选择得分最高的对接pose作为其预测结合模式。然而，使用评分函数进行准确的结合能估计仍然是一个重大挑战，通常会导致"硬故障"，这意味着预测的结合模式与本机或接近本机结合模式不对应。

第一次尝试使用ML开发用于结合pose预测的特定任务的评分函数是由Ashtawy和Mahapatra进行的。他们表明，各种ML算法可以映射来自蛋白质-配体复合物的结构和物理化学信息，可以将天然和近原生的对接pose与诱饵pose区分开来。与经典评分函数相比，特定于任务的最佳 ML 评分函数显示出更高的对接能力（>14%）。使用3D-CNN的类似实现称为DeepBSP，可以预测相对于其本机结合pose的预测pose的均方根偏差（RMSD）。作者根据包含11,925个原生复合体和超过165,000个Autodock Vina的数据集训练了模型。对接诱饵pose，并使用CASF-2016基准数据集对模型进行基准测试。发现对Autodock Vina进行评分会产生pose，DeepBSP相对于应用程序中可用的混合知识和基于经验的评分函数显示出更好的对接能力。

在前瞻性背景下，Adeshina等人使用"vScreenML"进行VS，发现了IC50值为 280 nM的 AChE抑制剂（Ki = 173 nM）。vScreenML建立在XGBoost框架之上，并使用分类器方法将对接pose分类为活性或诱饵。作者将其性能归因于训练数据集D-COID的独特性质，其中包括代表药物样化合物的天然复合物和分子建模产生的诱饵复合物。在训练数据中包含诱饵复合物显著提高了 vScreenML 评分函数的分类准确性。

最近，基于ML和DL算法开发的一类新评分函数越来越受欢迎。许多常见的ML和DL架构已被用于开发基于ML的评分函数，包括SVM，RF，kNN，梯度提升决策树（GBDT）和3D deep-CNN。代表性的例子包括Pafnucy, Onion-Net, RFScore-v3, NNscore2.0, BgN(BsN)-Score, 和ΔvinaRF。Onion-Net和Pafnucy使用3D CNN方法对蛋白质 - 配体复合物进行特征化。在各基准研究中，基于ML的评分函数已被证明优于经典评分函数。与传统的评分函数不同，基于ML的评分函数是非参数的，因为它们没有接近分子识别基础物理学的预定功能形式。相反，它们是从包含蛋白质-配体结构数据和结合亲和力数据的实验数据集中训练的，例如PDBbind和Binding MOAD。因此，它们隐式地考虑了必须显式建模的交互。基于 ML 的评分函数可用于对外部对接程序生成的对接pose进行重新评分，也可用于集成到对接程序中，以帮助指导pose采样。对基于ML的评分函数的详细讨论超出了本综述的范围，给读者推荐了有关该主题的几篇优秀评论。

此外，有几项研究报告了使用基于ML和DL的评分函数，这些函数可以识别VS期间经过实验验证的hits。例如，一种基于ML的评分函数，称为MIEC-SVM，结合了分子相互作用能量成分（MIEC）和SVM，用于筛选Specs供应商数据库，并鉴定出一类新型的ALK激酶抑制剂。使用MIEC-SVM重新打分Autodock 4.2的pose命中率为14%，而使用Autodock使用的本机评分的命中率为6%。

尽管基于 ML 的评分函数比经典评分函数有所改进，但基于 ML 的评分函数的可解释性并不简单。在对基于 ML 的评分函数进行基准测试和验证期间，需要谨慎对待问题。基准数据集设计中的缺陷以及将数据集拆分为训练和测试数据不当，可能会产生过于乐观的性能估计。如果基准数据集碰巧在训练数据中存在信息，从而导致验证期间性能过高，则会发生数据泄漏。当模型在训练集中显示高精度但未能对未知数据集进行泛化时，就会发生 ML 过拟合。Gabel等人报告了两个基于ML的评分函数，RF-IChem和SVM-Ichem，它们用于预测195种不同蛋白质 - 配体X射线结构的pKi值。基于ML的评分函数被发现对对接pose的位置、方向和构象不敏感，这表明他们高估了过度拟合的准确性。相反，Surflex-Dock 评分函数的行为与预期一样，对pose构象的变化具有逻辑敏感性。这提醒我们开发具有"黑匣子"特征的计算工具的缺点，以及由于过拟合而引入伪迹的可能性。

主动学习对接

随着按需制作库的规模不断增长，对能够在VS期间有效导航化学空间的计算工具的需求也在不断增长。尽管VS中"越大越好"还是"越小越好"的争论仍在继续，用于hit识别的超大型库的对接越来越受欢迎。这种库的巨大规模对对接程序提出了挑战，这些程序很少能执行超过1亿个分子的蛮力对接。

将主动学习算法与分子对接集成，为扩大超大型文库的筛选提供了一种优雅的解决方案。通常，主动学习对接从对接整个库的一小部分开始，然后使用结果训练 ML 模型来预测库中其余化合物的对接分数。然后，来自 ML 模型的得分最高的化合物将对接在一起，并使用新数据更新 ML 模型。整个过程以迭代方式重复，直到 ML 模型收敛。因此，主动学习对接在保持蛮力对接的保真度的同时，有助于从超大型化合物库中识别得分最高的化合物，而所需时间只是传统对接的一小部分。该过程的概述如图4 所示。

主动学习对接的一个实现是"主动学习滑行"，它集成了对接程序Glide100以及开源框架 DeepChem 中提供的 ML 算法。Graff DE等人证明，基于分子池的主动学习引导对接方法能够以蛮力对接的一小部分计算成本检索虚拟库中大多数得分最高的化合物。

图4 基于主动学习的对接工作流的示意图。主动学习过程从选择训练数据开始，以使用对接分数训练机器学习（ML）模型。这个过程被迭代，直到模型收敛，并推荐排名靠前的分子进行进一步分析。

生成化学

使用计算方法进行复合设计的概念历史悠久。早期基于结构的从头设计方法涉及受体结合位点内配体的自动化和增量构建。LUDI等程序可识别结合袋中的潜在相互作用位点，并从一组预定义的有机片段中构建分子，这些片段以空间和电子方式补充蛋白质。逆QSAR 建模是另一种从头分子设计方法，它试图通过从预构建的定量结构-性质关系（QSPR）/QSPR 模型逆向映射分子描述符来设计具有所需活性或性质的分子。一般来说，解决逆QSAR问题很复杂，因为基于前向QSAR/QSPR模型提供的分子描述符信息重建分子结构具有挑战性。阻碍广泛采用这些经典的从头设计方法的一个实际问题是设计分子的可合成性和类药物性质比较差。

在过去的几年中，使用基于AI的生成建模算法进行从头分子设计已经越来越受欢迎，因为它们可以克服经典的从头设计方法遇到的问题。生成化学依赖于使用基于AI的现代生成建模工具来生成具有类似药物特性的可合成化合物，同时满足所需的靶点特性。基于数据驱动的方法，生成建模算法从大量数据中学习分子结构，其生物活性和物理化学性质之间的潜在非线性分布，为化合物设计提供信息。简而言之，人工智能引导的生成建模平台执行化合物设计，预测和选择具有有利特性的化合物。几种深度学习架构，如VAE，生成对抗网络（GAN），RL和RNN，已被应用于从头分子设计。目前的生成建模方法也可以根据用于分子特征化的基础方法进行分类。虽然大多数第一代生成建模方法使用指纹和SMILES字符串来编码分子结构，但较新的方法，如分子图和基于片段的方法，正变得越来越流行。

Kadurin等人报告了一项这样的研究，该研究致力于在生成建模中实现深度GAN的原理证明。Segler等人还报告了一个证明RNNs在生成建模中效用的例子。Gupta等人报道了含有长短期记忆（LSTM）细胞的RNN成功应用于从头分子设计的第一份报告。生成LSTM模型针对ChEMBL22数据库进行了训练，以生成可以调节类视黄醇X受体（RXR）的新分子和过氧化物酶体增殖物激活受体（PPAR）。微调过程涉及针对包含25个RXR和PPAR调节剂（激动剂和部分激动剂）的数据集进行训练。使用ML模型预测所生成化合物的靶向活性，选择用于合成的五种顶级化合物中有四种在基于细胞的测定中显示出活性（图5a，1-4）。发现两种是PPAR激动剂，两种是PPAR和RXR的双重抑制剂，显示EC50值范围从低到两位数 mM。虽然这些化合物没有得到广泛的表征，但这些发现证明了生成AI能够提供满足设计目标的可合成的新型生物活性分子。

图5 基于人工智能（AI）的生成建模生成的分子的化学结构。（a）使用长短期记忆（LSTM）深度学习（DL）（1-4）从头开始设计类视黄醇X受体（RXR）和过氧化物酶体增殖体激活受体（PPAR）抑制剂。（b）母体化合物（5）作为盘状蛋白结构域受体1（DDR1）抑制剂获得专利，并作为从头设计的起点。来自Zhavoronkov等人的AI生成的分子的化学结构（6）。与上市的多激酶抑制剂帕纳替尼（7）和Gao等人报道的DD1抑制剂（8）。（c）基于人工智能的生成建模设计分子（Mol 885）的多参数优化（MPO）概况。

另一项当时引起大量媒体报道的生成建模研究是Zhavoronkov等人使用GENTR模型，在短短21天内发现了有效的激酶盘状蛋白结构域受体（DDR1）抑制剂。由GENTR方法设计的分子（6）如图5b所示，并与母体分子（5）和其他DDR1抑制剂（7，8）进行比较。作者使用目标函数以半监督方式训练生成模型，该目标函数奖励合成可行性，目标活性和新颖性。在生成模型提出的30,000个分子中，有六个随后被合成和测试。发现四种化合物在生化测定中具有活性，两种化合物在基于细胞的测定中具有活性，最佳化合物在生化和基于细胞的测定中，IC50值接近10 nM。尽管这项研究证明了生成建模识别纳米摩尔命中化合物的能力，但人们对分子的新颖性提出了担忧。设计的最佳分子与市场上的多酪氨酸激酶抑制剂帕纳替尼惊人地相似。此外，尚未建立化合物对更广泛运动组的选择性分析，这使人们对化合物的临床价值产生了疑问。作者回应了这些批评，指出该研究旨在证明生成建模技术的潜力，而不是鉴定临床候选化合物。

最近，Perron等人介绍了可能是第一份关于成功应用生成建模解决 MPO 问题的报告。使用LSTM生成模型与未公开目标上的RL方法耦合，设计了150种预测满足所有LO标准定义的化合物。训练数据集包括881个分子和11组相关测定数据，包括靶向活性，脱靶活性和ADMET终点。训练数据中没有一种化合物满足所有特性和效力标准。该模型产生的20种化合物根据不同的标准开始合成；这些化合物中有9种在合成过程中失败，其余11种被合成和剖析，其中一种满足所有11种LO标准（图5c）。

虽然生成化学越来越受欢迎，但重点也应该放在生成模型的严格验证上。生成建模的评估方法应包括分布学习基准的应用、合成有效性、新颖性、复合质量目标、导向目标等。开源标准化基准测试平台，如分子集（MOSES）和GuccaMol，可以作为基准生成建模方法的框架。

在计算机中预测ADMET

20世纪90年代后期观察到，候选药物的PK差是临床损耗的重要原因，这引起了制药行业的范式转变。它见证了几种基于性能的药物相似性规则的出现，例如Lipinski的Ro5，以及许多可开发性指标，用于在 LO 期间控制化合物属性。此外，建立小型化，高通量的体外ADMET分析测定在药物发现的早期阶段对疗效和ADMET进行并行评估。在计算机中，ADMET建模旨在帮助项目团队设计和选择具有优越ADMET特性的新化合物，并将实验资源引导到最有利的化合物上，从而减少需要合成和剖析的化合物总数。多年来，制药公司已经部署了许多全球计算机ADMET 模型，这些模型会随着新数据的出现而自动更新。 图6a提供了计算机ADMET模型中此类产品的代表性列表。

图6 在计算机中预测吸收，分布，代谢，排泄和毒性（ADMET）。（a） ADMET和PhysChem端点，提供计算机模型。（b）数据驱动的模型构建工作流程概览。

ADMET建模的早期工作使用了线性回归方法，例如Hansch使用的方法和弗里-威尔逊分析。但是，随着 ML 算法的发展和大规模同构 ADMET 数据的可用性，在计算机中ADMET 建模过渡到使用贝叶斯神经网络、RF 和 SVM 开发的基于 ML 的预测模型。这些 ML 算法适用于预测具有复杂和非线性关系的端点。

在2012年进行的Kaggle"默克分子活性挑战赛"之后，DNN方法用于ADMET端点的计算机建模得到了普及。Kaggle竞赛旨在研究ML方法使用来自默克内部数据的各种大小（2000-50000分子）的数据集预测18个不同的ADMET端点的能力。获奖作品使用了包括DNN，梯度提升机（GBM）和高斯过程（GP）回归方法的集成方法。默克公司的研究人员发布了一项后续研究，将DNN与RF进行了模型性能比较，并证明DNN模型在大多数情况下优于RF。同样，在NIH进行的Tox21数据比较毒性预测的计算模型挑战中，深度学习模型表现出色，优于浅层学习ML模型。

DNN 的一个独特特征是它们能够同时训练在单个模型中组合不同端点的 NN。多任务 DNN 使用一种称为归纳迁移学习的学习技术，训练与不同 ADMET 终结点对应的数据集，并将它们合并到单个模型中。多任务 DNN 背后的基本原理是通过在内部共享其表示形式来实现更快的学习速度并提高模型准确性。用于对 ADMET 终结点进行建模的大多数多任务 DNN 模型都使用"硬"参数共享方法，这意味着在所有任务之间共享隐藏层。图 6b 中说明了一个通用的数据驱动的 ADMET 模型构建过程。

在针对31个分析数据集进行的准确性基准研究中，Evan等人表明多任务 DNN 在预测 ADMET 端点方面比单任务 DNN 和浅层学习 ML 方法（如 RF）更准确。赛诺菲-安万特公司的科学家还报告了在其计算机 ADMET 工作流程中成功实施可预测的多任务 DNN 模型。通过应用替代的多任务学习方法在数据集之间传输特征，他们开发了用于预测代谢能力/清除率，Caco-2渗透率和logD的多任务模型。他们还报告说，多任务DNN方法虽然在许多情况下优于单任务DNN方法，但与某些端点的单任务DNN相比，其性能更差。因此，在机制不同的端点之间共享信息可能会导致性能不佳，因为任务之间共享的信息可能不相关。因此，先验地假设多任务 DNN 相对于单任务 DNN 的预测优势是一项挑战，在开发可预测的 ADMET 模型时，需要对这两种方法进行评估。

尽管预测建模在选择具有卓越ADMET特性的化合物方面起着重要作用，但它们通常不足以在先导物优化阶段指导化合物设计。从先前发现程序生成的信息语料库中提取隐性知识可以用作化合物设计的思想来源。药物化学中广泛使用的一个概念被称为分子匹配对（MMP）分析。

MMP被定义为一对分子，其区别仅在于与属性值的相对变化相关的明确定义的结构转变。传统MMP分析是使用统计方法进行的，但是，随着AI技术的进步，MMP分析与ML和DL算法相结合，能够以自动方式分析大数据。一个值得注意的实现是MCPairs，它使用无监督ML方法来挖掘来自三家不同制药公司（阿斯利康，基因泰克和罗氏）的体外ADMET数据。人工智能的使用和大规模数据的可用性有助于开发下一代MMP平台，该平台提供实用的解决方案，使用可解释的人工智能解决ADMET问题。

计算机辅助合成规划

计算机辅助综合规划（CASP）的使用可以追溯到E.J. Corey的开创性工作，他在20世纪60年代后期正式确定了"逆合成分析"的概念。逆合成分析是指一种技术，该技术涉及通过顺序断开和官能团相互转换将目标分子解构为其简单，容易获得的起始材料。CASP计划结合了逆合成分析的思想，并帮助合成有机化学家选择最有效和最具成本效益的合成路线。它们还可用于选择性和副产物预测以及建议和评估反应条件。人工智能的使用振兴了计算机辅助合成规划领域，近年来的技术发展在最近文献中得到了很好的综述。因此，在这里我们重点介绍CASP在药物发现背景下的应用。AI辅助合成规划工具通过推荐可行的合成路线来帮助化学家增强他们的合成知识。它们还帮助化学家做出更好的决策，从而通过减少合成失败来提高效率和生产率。最终加速了药物发现中DMTA周期的"制造"阶段。

计算机辅助综合路线规划策略通常分为两大类：基于规则或模板的方法和无模板的方法。

基于规则的方法使用从反应数据库和文献中提取的专家编码规则和启发式方法来建议合成路线。在基于规则的方法中，反应规则被手动提取和编码。逆合成软件的一个例子是Synthia（以前称为Chemmatica），它使用专家编码规则库进行化学合成计划。这种基于规则的方法的局限性是它无法随着化学文献的指数级增长而扩展，并且其知识库有限，因为不太可能完全覆盖。为了解决这些局限性，开发了基于规则的自动化方法，用于使用计算方法从反应数据集中提取反应规则。这种基于规则的自动化方法使用模板提取算法，这些算法依赖于SMIRKS模式形式的原子映射反应示例，以从反应数据集中提取转化。两个重要的限制包括子图同构计算所涉及的高计算成本和缺乏化学智能。近年来开发的一种基于规则的替代方法用于提取反应规则，即应用数据驱动的深度学习技术。一个值得注意的例子是Segler等人的一项开创性研究。他们使用神经符号方法从Reaxys数据库自主提取逆合成规则，而无需专家输入。然后将这些规则与现代蒙特卡洛树搜索算法相结合进行反应预测，以选择最有希望的逆合成步骤。

经典基于规则的正交方法是使用无模板方法进行反应预测和逆合成转化。无模板方法从自然语言处理（NLP）中汲取灵感，并将正向或逆向合成预测视为神经机器翻译问题。鉴于分子可以表示为SMILES字符串，每个化学反应都可以编码为句子并被视为化学语言翻译问题。Liu及其同事提出了第一个用于逆合成分析的无模板模型。他们使用了一个sequence-to-sequence（Seq2Seq）模型，该模型使用基于编码器-解码器的天然NLP转换器将反应物的SMILES表示映射到相应产品的SMILES表示，反之亦然。所采用的 NN 架构使用双向 LSTM 单元，该单元具有加法注意机制，可实现标记方面的对齐。该模型在求解逆合成反应预测任务方面被证明可与基于规则的专家系统相媲美。据报道，其它无模板方法也显示出有希望的结果，包括使用图，化学反应网络和基于相似性的方法。一些流行的逆合成规划工具包括AiZynthFinder， Spaya.ai（https://spaya.ai）和Chemistry42™平台。

Klucznik等人于2018年报道了第一份由合成规划软件提出的多步骤合成路线成功执行的报告。作者使用Synthia™软件为八种结构多样化，合成具有挑战性的目标分子设计合成途径。他们研究中考虑的八个目标分子如图7所示。Synthia™依赖于在15年内编译的∼50，000个专家编码反应规则库，能够在15-20分钟内为所有目标提出合成路线。在大多数情况下，选择得分最高的合成路线来合成目标化合物，从而在8周内以毫克为单位获得98%的产量。有趣的是，Synthia™提出的合成路线与专利中公开的原始合成路线有很大不同，并且在更少的合成步骤中提供了更高的产量。

图7 Synthia™（以前称为Chemmatica）提出的常规和计算机辅助合成计划（CASP）方案制备的8种目标分子的合成性能指标比较

此外，综合规划工具为枚举和探索合成可访问的化学空间开辟了可能性。一个早期的例子是创建反应驱动的辉瑞全球虚拟图书馆（PGVL）。可综合访问的化学库枚举涉及使用基于反应的枚举工具，这些工具使用完善的反应和排除规则，化学"专有技术"协议和构建块可用性信息。Enamine REAL Space库（https://enamine.net）是这种"按需制作"库的典型例子，在最后一次统计中包含约155亿种化合物，使其成为同类产品中最大的商业图书馆。尽管人工智能在简化合成有机化学方面显示出巨大的希望，但仍有进一步改进的机会，例如对立体化学结果的可靠预测，试剂预测，反应条件等。

人工智能在临床前药物发现中的应用挑战

人工智能在生物制药行业内掀起了一股兴奋和投资浪潮。尽管人工智能技术的支持者认为，它将迎来人工智能驱动的药物发现新时代，但怀疑论者认为，大多数承诺都可望而不可即。然而，大多数专家都认为，现实可能会介于两者之间。尽管已经取得了一些值得注意的进展，证明了人工智能在临床前药物发现项目中的影响，但目前尚不清楚我们离人工智能驱动的药物发现的新时代还有多远。目前，临床前药物发现中的人工智能正乘着Gartner炒作周期的"期望膨胀高峰"阶段。因此，必须从现实中筛选出夸张的词条，并设定现实的期望。

将AI应用于药物发现中存在许多挑战，其中最苛刻的挑战之一是需要大量高质量的训练数据。为决策构建有用的预测模型在很大程度上取决于数据的质量和数据集的大小。不幸的是，药物发现中的数据生成既需要大量资源又耗时，通常会导致化合物分析策略在早期阶段测量很少的终点，涵盖许多项目化合物，然后在后期阶段对少量化合物进行密集分析以支持进展。从商业和公共数据库（如GOSTAR，PubChem和ChEMBL）中可用的数百万个生物活性数据点中可以明显看出这一点，但相关的ADMET数据点相对较少，给我们留下了不完整的数据矩阵。最近进展如稀疏的AI方法和深度插补方法，可以帮助缓解数据匮乏问题。

在数据管理过程中，可用药物发现数据的标准化和集成也带来了挑战。检测读数通常以不同的格式表示（例如， IC50, EC50, Kd, Ki, 或抑制），它们不容易兼容，并且基础数据类型可以是离散的，也可以是连续的。此外，读数是测定特异性的，仅在特定条件下具有可比性，因为它们在测定形式，蛋白质构建体长度，底物浓度等方面可能不同。因此，集成和标准化公共和专有数据以扩展可用数据量是一项重大挑战。

药物发现数据的不确定性普遍存在，对ChEMBL中报告的具有多种活性值的化合物的Ki值的实验不确定性的估计表明，平均无符号误差（MUE）为0.44 pKi单位。与实验数据相关的固有噪声被称为无符号不确定性，训练数据中的不确定性值设置了预测器模型可以实现的性能上限。此外，药物发现数据通常跨越较小的动态范围（2-3个对数单位），这通常会限制模型的可预测性。

ML / DL模型所包含的化学空间被称为"适用性域"（AD），与可用的化学空间相比，该空间必然是微小的，估计为∼1060分子。通过这种方式，每个可以想象的全局模型都是局部模型，并且对AD模型之外的化合物进行预测是基于归纳推理的推广，这增加了对这些化合物预测的不确定性。

使用许多ML和DL算法的另一个挑战是缺乏透明度，因为它们作为"黑匣子"运行，这意味着这些模型编码的特征，功能和权重超出了人类用户的解释。这些算法使用不透明的决策过程无法帮助发现科学家为化合物设计产生新的想法，只能评估已经设计的化合物，从而限制了模型支持决策的效用。因此，对于复合设计，需要可解释的AI（XAI），它提供透明，信息丰富和可解释的结果来驱动复合设计。然而，现代XAI算法正在发展，可以帮助解释这些黑盒模型。这些算法使用灵敏度分析、变量重要性和偏导数等方法来提取模型用于预测的变量或子结构特征。

临床前数据依赖于使用代理测量，例如细胞靶点参与作为人类体内靶标占用的预测因子，患者来源的异种移植物（PDX）小鼠肿瘤模型作为肿瘤学项目中临床疗效的代理，人HepG2细胞作为遗传毒性的替代物，以及Caco-2细胞通透性测定作为估计人类肠道通透性的替代物。虽然临床前数据有助于支持临床转化，但这些替代物或代理体内数据点不能可靠地用于训练AI模型来预测临床结果（例如，人类PK，临床疗效，安全性和耐受性）。

除了上述科学和技术挑战之外，组织的文化和敏捷性对于人工智能的采用和实施也至关重要。在许多组织中实施新技术时，肯定存在一定程度的根深蒂固和更大程度的风险规避。实施人工智能技术，以保持领先地位，同时意识到没有保证的成功，将需要高层领导做出一些大胆的决定和愿景。

结语

人工智能技术的应用在改善药物发现时间和成本方面具有巨大的希望。虽然人工智能可能不是解决药物发现中每个问题的灵丹妙药，但如果在正确的环境中应用并使用正确的数据，它显然是一个有价值的工具。人工智能技术的力量肯定会被用来补充人类智能并增强我们的能力，也许会改变我们进行药物发现的方式，但不能取代药物发现科学家。将谷歌的DeepMind在药物发现方面优于人类职业围棋选手相提并论是不合适的；药物发现是一门高维科学，它显示了许多已知和未知的非线性，而不是一个可以根据一组有限规则定义的围棋游戏。虽然人们需要接受人工智能等新技术进行药物发现，但随着该领域的成熟，合理的质疑和谨慎是可取的。

参考资料

R.S.K. Vijayan, Jan Kihlberg, Jason B. Cross, Vasanthanathan Poongavanam,

Enhancing preclinical drug discovery with artificial intelligence, Drug Discovery Today, 2021, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2021.11.023.

----------- End -----------

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-12-06，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习