前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Future Med Chem|企业级ADME性质早期预测模型的开发与应用

Future Med Chem|企业级ADME性质早期预测模型的开发与应用

作者头像
智药邦
发布2021-12-06 14:53:11
7010
发布2021-12-06 14:53:11
举报
文章被收录于专栏:智药邦

2021年9月16日,Future Medicinal Chemistry杂志发表文章,介绍了杨森制药的研究人员开发的预测药物ADME性质的gTPP预测模型。

以下是全文主要内容。

摘要

背景:准确预测药物的吸收、分布、代谢和排泄(ADME)特性,有助于筛选出有潜力的候选药物。方法与结果:杨森制药(Janssen)的研究人员开发了gTPP预测模型,该模型采用图卷积神经网络算法,在每个预测参数上用1000~10000个内部数据点进行训练,预测了18个早期ADME性质。gTPP模型的性能优于商用的ADME预训练模型和自动模型构建器。本研究通过一种新颖的记录方法,报告了gTPP在200多名杨森药物发现科学家中的使用情况。结论:研究人员成功地在所有治疗领域的药物发现管线上部署了快速且系统的机器学习预测工具。这一经验为其他大规模人工智能/机器学习的部署工作提供了有益的指导。

前言

近年来,基于不断改进的人工智能(AI)的化学性质预测方法,促进了ADME预测的发展。制药企业能够获取大批一致的和同质的化合物筛选数据和多种开放、商业化的机器学习(ML)方法,在计算机辅助药物设计流程中可以很好的整合这些建模资源。

在早期的ADME分析中,一些公司使用了多种模型构建技术,并且已经发表了他们开发的预测模型,这些方法包括递归神经网络(RNN)、支持向量机(SVM)、逻辑回归、递归划分、随机森林(RF)和图卷积。制药公司将这些模型运用到了他们设计分子的管线中,或让模型根据输入的新数据自动做出建议。

这些努力的一个共同缺点是,需要对模型进行频繁甚至按需的重训练,因此限制了模型广泛运用到其他的新化合物上。作者从一个全面的角度描述了从实施计算机ADME预测和药代动力学(ADME-PK)特性预测方法中吸取的主要经验教训。

本研究的作者提出了一个全局ML分类模型,由高维生物学与发现数据科学(HDBDDS)团队设计的gTPP模型。该模型采用MIT的Barzilay小组开发的能够进行多任务学习的图卷积神经网络Chemprop算法。Chemprop已公开,并以最新版本提供给诸如Janssen这类的基于机器学习的药物发现与合成联盟(MLPDS)成员。模型采用了Mondrian归纳交叉一致性预测(MCP),它提供了模型预测准确的似然性评估,使得预测工作流仅返回高度可靠的结果,可以计算大批量的分子的性质,也可预测终端用户及时构建分子的性质。

gTPP模型会每个季度根据总结的预测性能进行重训练。为了使终端用户熟悉该工具,作者在多个Janssen站点进行了实践培训,以演示如何在3个不同的化学信息学平台上使用gTPP。对提供培训和优化用户体验的重视,使化学社区能够迅速接受gTPP模型。

除了gTPP模型构建的细节之外,作者还讨论了在全公司范围内推出通用模型以及将这种新工具系统化地实施到药物发现工作流中所涉及的挑战。与业务技术(BT)部门的解决方案架构师的密切合作至关重要。

方法

gTPP的开发

模型开发需要几个步骤:收集需要建模的终点(分子结构和实验结果)的训练数据,清洗和标准化数据,选择模型建立方法,训练和验证。下面概述了每个步骤。

实验数据和选择的阈值

gTPP是在大型的、高质量的杨森的化合物数据集上训练的。该模型预测了18个药学上重要的早期ADME性质。

CYP抑制

预测细胞色素P450单氧酶(CYP)酶超家族的蛋白质的抑制能力对于避免药物间的相互作用很重要。CYP异构体1A2、2C8、2C9、2C19、2D6和3A4占药物氧化或水解的90%以上,因此这六个端点被纳入gTPP模型中。如果一个分子的IC50小于10μM,则定义为CYP抑制剂。

溶解度

该特性包括在几种缓冲条件下的平衡溶解度测量。使用30mM磷酸盐缓冲液在pH2和pH7的溶解度;模拟胃液(SGF)在pH1.2的平衡溶解度;以及使用禁食模拟肠液(FasSIF)在pH6.8的平衡溶解度。SGF和FasSIF测定是为了评估类药物在相关的消化道生理液体中的溶解度。所有四个溶解度终点都是多类的,将分子分为低(<5μM)、中(5-100μM)或高(>100μM)溶解度类别。

渗透性

该实验使用转染了P-糖蛋白(MDR1)的MDCK细胞测量测试化合物的渗透性和流出量。gTPP渗透性终点预测化合物的渗透性是低(<1),中(1-10),还是高(>10)。MDR1的外流潜力用二元类来预测。

PPB

血浆蛋白结合试验(PPB)采用平衡透析法,确定与蛋白质结合的化合物的比例。gTPP模型包括与人类、小鼠和大鼠血浆蛋白结合的终点。化合物被分为与蛋白质结合程度非常高(≥99%)或结合程度不高(<99%)。

清除率

该检测方法测量化合物在肝脏微粒体中随时间变化的代谢情况,这与代谢稳定性有关。gTPP预测人类、小鼠和大鼠物种的衍生提取率(ER),未对结合参数进行校正,将化合物分类为稳定(≤0.3)或不稳定(≥0.7)。

有关测定的数据点从2019年10月14日或之前产生的杨森内部数据中收集。每个端点的训练数据包括每个预测参数的103-105个数据点。表1总结了用于建立模型的终点、截止点和训练集大小。

表1. 预测的性质与相应的检测方法、训练集中的化合物数量、输出类别和分类器的解释。

模型的建立和训练

该模型是用Chemprop训练的,这是一种图卷积神经网络算法,在常见的化学信息学任务上表现出很强的性能。底层技术是将分子视为图形,在图形卷积过程中学习对预测特性很重要的特征。

模型验证

每个实验中最近的10%的化合物被用作外部验证集,不用于任何形式的模型训练或调整。研究人员进一步评估了gTPP推出后的两个季度内合成的化合物的性能(2020年1月1日至6月30日之间合成的化合物,包括在内),整个过程称为Q1Q2。在新的化合物上测试性能,可以评估从外部验证集产生的统计数据与真实世界的使用情况相比有多密切,并评估在最新的化学上是否保持了性能。最后,还评估了gTPP对从ChEMBL数据库中检索到的除FasSSIF和SGF外的所有终点的公开可用化合物的预测能力。

产品实施和使用记录

训练gTPP模型和预测特性的软件是用Python 3.6实现的。为了便于与终端用户应用程序(3DX、Optibrium公司的Stardrop和Schrödinger公司的LiveDesign)集成,训练好的模型被打包并部署为网络服务,使用Swagger 2.0规范设计的结构化RESTful API。在gTPP网络服务的开发中广泛使用了自动代码生成工具。

结果与讨论

外部检验

一致性预测有两个主要的质量指标:效率和有效性。药物性质的效率(efficiency)被定义为在给定的错误率ε下可以进行域内(ID)预测的化合物数目除以总的化合物数。

efficiency = # ID predictions# compounds

一个终点的有效性是通过正确预测的数量除以ID预测的总数量来计算。

validity = # correct predictions# ID predictions

为了定义默认的ε,作者研究了给定ε值的所有18个端点的平均效率和有效性。通过增加ε,会观察到效率的提高,但在预测的有效性上成本增加。在评估ε截断值时,考虑了外部验证集的ε在0.01~0.20范围内有效性和效率的权衡,如图1所示。从本次评估中,选择默认的ε=0.05的截断值,为用户提供合理的预测数量,同时对预测的准确性保持较高的置信度。

图1.所有终点的gTPP效率和有效性性能。在外部验证集上,所有端点的gTPP效率和有效性性能随着希腊字母ε从0.01到0.20 ( RGB颜色)递增变化。异常值表示来自FasSIF预测的有效性结果。

默认ε=0.05的化合物外部验证集的有效性和效率列于表2。ε = 0.05的平均效率为0.55,表明55 %的化合物有预测返回。这些预测的平均有效性为90 %,与95 %的预期置信区间非常接近。这些结果与前人探索将ML模型与MCP耦合用于化学性质预测的研究结果一致。

Amaro和同事报告了使用MCP的急性口服毒性随机森林分级模型的效率:0.13 ( ε=0.05 )、0.35 (ε=0.10)和0.59 (ε=0.15 ),Norinder及其同事还描述了与随机模型一致预测器的使用。在ε=0.10~0.30预测生物活性和细胞毒性时,阳性分类的基线效率分别为0.60~0.92和0.57~0.88。对于生物活性,在阴性分类上的总体表现类似,但对于细胞毒性效率上,在ε=0.10时要低很多。

表2. 化合物的外部验证集的有效性和效率结果。

本研究作者选择了默认的ε=0.05,尽管有些用例将受益于返回的预测数量与这些预测正确的可能性之间的不同平衡。对于需要更多预测的复合优先级,建议用户使用ε= 0.10的gTPP模型。除了模型构建者外,还提供了高级用户使用RESTful 的API接口修改ε的能力,以满足他们项目的需要。

混淆矩阵有助于分类模型预测分析的可视化。在图2中,每种属性点的混淆矩阵显示了在外部验证集上测试后正确和错误预测的gTPP率。除CYP<10类的正确预测率为0.87外,所有二分类属性点的正确预测率均>0.90。

图2 .外部验证集上每个标签结果的gTPP。测试gTPP后每个标签结果的混淆矩阵,化合物外部验证集上( ε=0.05 )。

gTPP对内部和公开可用化合物的预测性能比较

作为向内部化学同事推广的一部分,模型构建统计数据发布在Janssenn内网上供用户参考。通过报告没有参与任何模型训练或调优的化合物的外部验证集的测试结果,gTPP为用户设置了一个关于模型应该如何执行任何新的化合物设计思想的期望。为了评估gTPP效率和有效性预测是否与实际相符,研究将外部验证集( 2019年10月14日或之前合成)中化合物的gTPP性能与Q1Q2集上的性能进行了比较。

图3. gTPP在内部化合物和外部验证集上的效率和有效性。(A) gTPP在外部验证集上的有效性与gTPP在Q1Q2合成的化合物上的有效性对比。(B) gTPP在外部验证集上的效率与gTPP在Q1Q2中合成的化合物上的效率。所示的统一线将理想的一对一关系可视化。Q1Q2:2020年1月1日至6月30日期间合成的对外开放的化合物

gTPP对Q1Q2集合的外部验证集的效率和有效性结果见图3。理想的情况是,外部验证集作为模型的一部分,其性能统计数据接近统一线。有效性方面,观察到大部分数据点略低于统一性。对于效度而言,观察到的一一对应关系要强于效率。效率方面,大多数数据点被观察到略低于统一线,说明在外部验证集上看到的效率适度地高估了未来的性能。

总体而言,作者对gTPP在Q1Q2化合物上的性能与在外部验证集上的性能相似感到满意。此信息用于进一步告知对新数据进行季度再培训的决定,而不是每周或按需再培训,因为后者需要更频繁地发布 gTPP 并导致开发人员和用户进行更复杂的版本跟踪。

为了评估gTPP在较为不相关的数据集上的预测能力,作者从ChEMBL数据库中提取了化合物列表,并将化合物的真实实验数据与来自gTPP预测的数据进行对应分析。为了了解ChEMBL化学空间与我们化合物内部化学空间的比较,基于512位Morgan指纹描述符,采用t分布随机邻居嵌入( t-SNE )分析方法,如图4所示。

图4.测试集的化学空间复盖。使用512位Morgan指纹描述符对前50个主成分进行t-SNE降维呈现,以可视化内部Q1Q2化合物(紫色)、外部验证集化合物 (粉色)和ChEMBL外部公共化合物(橙色)的化学空间复盖。

每个描述符平均测试280种可公开使用的化合物。与外部验证集相比,平均效率略微下降11 %,平均有效性下降9 % (图5 )。与外部验证集和Q1Q2集观察到的结果类似,具有多类标签的描述符显示了最低的正确预测率。具体来说,预测化合物在渗透性1-10类和溶解性< 5类的正确预测率分别为0.20和0.09。相比之下,二分类CYP,PPB和清除率为0.80或更好。

图5 . gTPP对公共化合物和外部验证集的效率和有效性。( A ) gTPP在外部验证集上的有效性与gTPP在公共化合物上的有效性相比。( B ) gTPP在外部验证集上的效率与gTPP在公共化合物上的效率相比。统一线显示理想的一对一关系。

gTPP优于商业模型

许多商业工具包含此类与gTPP描述符重叠的预测模型。为了给化学界提供指导,我们将gTPP与ACD/Labs、QikProp (Schrodinger)、StarDrop (Optibrium)和ADMET predictor ( Simulation- Plus) 等商用模型的性能进行了比较。为了进行最公平的比较,所有gTPP结果不包含一致性预测,因为大多数供应商模型都不包含置信度度量。为了让所有预测都能返回,我们将不再讨论有效性方面的性能,而是讨论模型的准确性。

图6中的结果显示,gTPP模型优于所有预先构建的商业模型。gTPP是建立在更大的数据集上和可能更一致的实验数据。这种比较对于让我们的化学家知道可改进之处是必要的,这些改进可以通过从熟悉的软件转向使用gTPP模型而获得。

图6. gTPP和商业ADMET模型的准确性比较。

与StarDrop预测的CYP 2C9 抑制(+53% )和2D6抑制 (+74% )模型相比,gTPP预测的准确性提高最明显。StarDrop性能较差很可能是由用于构建CYP2C9模型(训练集大小为 105个化合物)和2D6模型(训练集和验证集为213个化合物 )的小训练数据集所导致的。

作者在外部验证集上比较了使用AutoQSAR和Auto- Modeller生成的相同训练数据构建的gTPP模型的性能。受试者特征曲线(ROC)下的面积(AUC)为每个模型提供了分类性能评估指标。gTPP (0.74)的AUC中值高于StarDrop ( 0.63 )和Schrodinger (0.65)生成的分类模型。所有模型的接近性能表明,大的一致性数据集在构建质量模型时比特定算法更重要。

图7. 自动模型构建器的比较

gTTP模型的实施和使用

目前,gTPP已被部署为性质预测Web服务工具,允许与多种广泛使用的工具无缝集成,包括内部化学和生物数据分析包3DX、Optibrium旗下的Stardrop和Schrodinger旗下的LiveDesign。

我们在StarDrop和3DX上启用了一个“绘制-预测”功能,允许在用户实时地做出预测。实时访问gTPP使得化学界得以迅速采用该模型,2019年6月首次部署后,前6个月内所作的总预测数量急剧增加(图8 )。目前已经追踪到200多个单独的gTPP用户。单个科学家可以很容易地对单个分子或成千上万个分子的库做出预测。虽然有用户对5万多种化合物进行了预测计算的例子,但大多数使用该模型对5000种或更少的化合物进行预测(图8 )。

图8 . gTPP用户统计。( a )每月累计gTPP预测。( b )用户对所有已命名用户(左)的总预测,以及在最初的全企业范围推出后的头两个季度计算< 5000个预测(右)的已命名用户的总预测。

图9给出了2020年第一季度和第二季度( Q1和Q2 )每个项目合成前预测的化合物百分比。分析仅限于在Q1和Q2中合成化合物的35个项目。在35个项目中,共有33个项目显示复合注册前gTPP使用量增加。这些项目涵盖所有治疗领域,强调全企业采用gTPP模式。

图9.每个季度合成化合物使用gTPP预测百分比。

模型的局限性

终端用户强调了gTPP的一些改进和局限性。例如,代谢清除率的预测已经从使用体内参数提取率(未校正结合参数)得到的数据过渡到体外本征清除率的预测,这对于早期的药物设计更相关,可以与剂量预测联系起来。作者提出并不是所有的性质描述符分类都适合每个项目。

为了进一步缓解gTPP模型的局限性,研究者正在努力将建模指向发展全局和局部回归模型。在这种情况下,稳健的置信区间将标记模型的不确定性,类似于机制保角预测通过返回域外标签来表示分类预测中的低确定性。

gTPP驱动的复合设计实例

作者展示了一个gTPP预测对药物设计产生积极影响的用例。项目34提出了提高其化合物溶解度方面的挑战,该项目成员能够利用gTPP溶解度预测对那些最有可能在pH2和pH7条件下显示溶解度增加的化合物进行分类。在合成前进行gTPP预测出更可能处于中等或高溶解度范围的化合物,如图10所示。实验数据落在100 μM的有利溶解度的化合物的百分比在pH2时增加了11 %,在pH7时增加了10 %。

图10.gTTP驱动的药物设计案例。

结论

早期识别满足临床候选药物所有性质的分子,是加快药物发现进程的关键。为化学家提供预测模型,可以帮助找到最佳性质轮廓的理想化合物。gTPP模型模型具备准确度高,覆盖广泛、使用方便、结果容易解释的特点。

研究者探讨了如何不断地深入了解AI/ML工具对ADME属性预测的预测能力,以及如何将其更好的纳入日常决策中。我们的gTPP预测模型,自其首次全企业推广以来,已系统地部署到跨越所有治疗领域的研发项项目,这证明了朝着AI/ML方向进行部署的努力是有益的。

展望

未来仍存在若干挑战,我们需要评估当前的模型是否可以推广到更大的分子,例如在训练数据中代表性不足的大环和肽,或者是否需要开发针对特定化学空间的模型。第二个挑战是将这些模型纳入一个能够更好地为分子设计提出建议的系统,而不是简单地评估所提供的化合物。

参考资料

https://doi.org/10.4155/fmc-2021-0138

----------- End -----------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档