前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Chem. Inf. Model. | 评估图神经网络和迁移学习在口服吸收率预测中的应用

J. Chem. Inf. Model. | 评估图神经网络和迁移学习在口服吸收率预测中的应用

作者头像
DrugAI
发布2023-10-09 10:22:56
2220
发布2023-10-09 10:22:56
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Yunpeng Lu团队的一篇论文。口服生物利用度是药物发现中的重要药代动力学属性。最近开发的计算模型涉及使用分子描述符、指纹和传统机器学习模型。然而,确定分子描述符的类型需要领域专家知识和进行特征选择所需的时间。随着图神经网络(GNN)的出现,模型可以被训练成自动提取它们认为重要的特征。作者利用了GNN的自动特征选择来预测口服生物利用度。为了增强GNN的预测性能,作者利用迁移学习预训练了一个模型来预测溶解度,并获得了最终的平均准确度为0.797,F1得分为0.840,AUC-ROC为0.867,这超过了先前在相同测试数据集上预测口服生物利用度的研究成果。

口服给药的药物在进入全身循环之前会被肝脏代谢,经历首过效应。药物进入全身循环并到达药理靶点的比例被称为口服生物利用度。尽管在临床前试验阶段显示出有希望的结果,但某些药物候选化合物可能由于口服生物利用度低而未能在临床试验阶段取得进展。因此,在药物发现过程的早期阶段,估计药物候选化合物的口服生物利用度是一个关键方面。传统上,用于确定口服生物利用度的方法涉及使用啮齿动物或非啮齿哺乳动物模型。然而,这些方法耗时且昂贵。此外,动物模型与人体之间的代谢途径存在显著的种间差异,必须加以考虑,因此需要建立一个能够准确可靠估计小分子的人体口服生物利用度的预测模型。多年来,不同的体外方法已被开发用于模拟这种关系。

数据集

为了开发口服生物利用度预测模型,作者从先前研究中获取了一个数据集,其中训练数据集包含1157个分子,测试数据集包含290个分子,这些分子最初来自四个公共数据来源。为了使迁移学习成功,作者使用了一个与口服生物利用度密切相关且规模庞大的数据集对模型进行了预训练。由于图神经网络容易过拟合,使用更大的数据集训练图神经网络可以获得更好的泛化性能。此外,使用一个密切相关的数据集可以使模型学习分子的结构细节,这些细节可能可迁移到口服生物利用度。作者采用了一个溶解度数据集,并在研究中使用相同的训练、验证和测试分割,结果得到一个由9940个分子组成的数据集。

模型

随机森林在不同的分子属性预测研究中被广泛用作基准模型。研究显示,与其他机器学习算法相比,随机森林在开发定量结构-活性关系模型时具有优势。实质上,随机森林是一种集成技术,由多个单独的决策树组成,最终的预测结果是通过对每个决策树的结果进行平均得到的。

图 1

作者开发了几个基于图神经网络的模型。首先,使用GINConv层开发了一个图同构网络(GIN)模型。其次,使用TransformerConv层开发了一个Graph Transformer(GT)模型。此外,还开发了另一个基于图神经网络的模型,称为Vertical GNN,它将GIN和GT卷积技术合并到一个单一模型中(图1)。首先,通过将图数据传递到GT卷积块,然后传递到GIN卷积块,生成了嵌入。最后,通过将最终嵌入传递到分类器块来获得类标签的预测。

实验结果

表 1

图 2

作者用实验验证了在用于随机森林模型的各种特征中,以分子描述符作为特征的模型表现出最佳的预测性能(表1)。可能的解释是分子描述符包含了更详细的信息,从分子量到拓扑信息等等。以前的分子属性预测研究也提出了类似的结论,其中分子描述符通常更适合在预测模型中表示分子。

此外,使用SHapley Additive exPlanations(SHAP)对使用分子描述符构建的模型进行了解释。除了Shapley值,还绘制了Beeswarm图,以便更好地解释模型的决策。在Beeswarm图中,用于建模的分子描述符按重要性排列,最重要的描述符位于顶部(图2)。在Beeswarm图中的每个描述符中,每个分子都表示为一个点。这些点根据SHAP值水平分布。例如,药物相似性的定量估计(QED)考虑了分子属性的分布,如分子量、log P、拓扑表面积以及氢键供体和受体的数量,并且具有最高的预测能力。具有较大QED值(红色)的分子导致更高的高口服生物利用度值的预测概率。这是预期的,因为药物类似分子通常表现出更高的口服生物利用度。相反,可以注意到具有较小QED值(蓝色)的分子导致更高的低口服生物利用度值的预测概率。同样还观察到Mol log P和口服生物利用度之间存在正相关关系,这是符合预期的,因为较高的logP导致更好的药物渗透性。

表 2

在所有基于图神经网络的模型中,Vertical GNN表现出最佳的预测性能(表2)。GT的预测性能优于GIN,这表明GT架构在其表示能力方面更加出色。当不同的卷积技术合并成一个单一模型时,与单一卷积技术的GNN模型相比,记录了更高的平均准确率(0.742,对比0.630−0.663),从而强调了通过合并卷积技术可以提高GNN模型的预测性能。

与研究中使用分子描述符构建的RF模型相比,Vertical GNN在使用的各种指标中报告了更好的平均分数。使用GNN的好处在于能够自动从原始图形输入中提取相关特征。在GNN中,分子的分子结构被表示为一个图,其中原子和键的信息分别被编码到图的节点和边中。GNN的训练过程会自动提取与预测任务相关的特征。这在药物化学领域特别有用,因为基于GNN使用可解释的人工智能工具,如GNNExplainer,可以揭示分子预测任务的重要亚结构。另一方面,使用分子描述符开发RF模型需要进行费时的特征选择。分子描述符是从算法派生出来的分子的数学表示形式,可能不是表示分子的最佳方式。例如,研究中突出显示为最重要特征的QED是从使用八个分子属性的多个函数派生出来的。然而,研究表明,QED可能不适合作为建模的特征,因为用于确定QED的属性在药物和非药物分子之间无法区分。

表 3

迁移学习对所使用的数据集要求很高。作者采用了Vertical GNN模型架构为基底,因为在上述列出的各种GNN模型中,它报告了更好的预测性能,表明比其他模型具有更好的表示能力。作者固定了特征提取块(GIN + GT卷积块)的参数,同时允许分类器块在训练过程中更新,以便进行正确的预测。作者使用不同相似度(低、中、高)和不同大小(5000对9844)的数据集对预训练模型进行了训练,并注意到在使用高相似度数据时表现更好。为了确保最佳性能,作者进一步通过尝试不同数量的训练周期,然后触发早停机制,以及对比学习率,来改进预测模型的性能(表3)。如上面提到的工作所述,高相似度数据表现出最佳性能,因此作者决定对用高相似度数据预先训练的模型进行进一步的微调。

表 4

可以观察到,使用比原始学习率小10倍的学习率,在验证过程中的所有训练周期中表现出更好的性能。这表明,允许模型以较慢的学习率学习可能会使预训练模型能够获取有关口服生物利用度的相关细节,同时仍保留先前学到的主要信息。最后,作者将调整了最佳超参数的迁移学习模型的预测性能与最近发布的其他模型进行了比较(表4)。通过比较平均值,作者的迁移学习模型报告了平均准确率为0.797,略高于先前的模型。此外,迁移学习模型报告了最高的平均F1分数(0.840)和AUC-ROC(0.867)。与从头开始构建的垂直图神经网络模型的预测性能相比,观察到在所有指标中都有预测性能的提高。这表明,使用与溶解度等密切相关的数据集进行迁移学习确实可以提高口服生物利用度预测的性能。预先训练的模型可能还可以用于与溶解度密切相关的其他下游任务。然而,要进行迁移学习,需要额外的预训练步骤,这无疑会增加计算成本和时间。

结论

作者展示了基于图神经网络的模型可以用于自动特征选择,以预测口服生物利用度。这消除了为建模目的进行特征选择所需的专业领域知识和时间。为了进一步提高垂直图神经网络(Vertical GNN)的预测性能,作者使用更大的数据集对垂直图神经网络进行了训练,以预测溶解度,使模型能够自动提取分子的重要亚结构。接下来,微调了同样的模型以预测口服生物利用度,并成功实现了比从头开始构建的模型更好的预测性能。

参考资料

Ng, S. S., & Lu, Y. (2023). Evaluating the Use of Graph Neural Networks and Transfer Learning for Oral Bioavailability Prediction. Journal of Chemical Information and Modeling.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图数据库 KonisGraph
图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档