前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat.Mach.Intell.| 简单的最近邻分析即可达到媲美复杂机器学习模型关于化合物效价预测的准确性

Nat.Mach.Intell.| 简单的最近邻分析即可达到媲美复杂机器学习模型关于化合物效价预测的准确性

作者头像
DrugAI
发布2023-02-13 13:37:50
3810
发布2023-02-13 13:37:50
举报
文章被收录于专栏:DrugAIDrugAI

编译|沈祥振 审稿|夏忻焱

今天为大家介绍的是来自德国波恩大学的Tiago Janela和Jürgen Bajorath的一篇关于化合物效价预测的文章。该工作的总体目标是为特定靶点寻找高效价的化合物。目前在该领域中,对于机器学习模型所能达到的性能和准确性一直受到争议。而作者更有研究发现,简单的最近邻分析,便能达到甚至超过最好的机器学习方法的性能。作者认为该发现对评估机器学习方法性能的基准具有重要意义,并且应该重新审视目前评估基准的可靠性。

作者首先介绍了实验的最终结果,之后对实验现象进行分析,最后给出了具体的实验设置细节。

实验结果描述

化合物数据集选择和效价的数值分布

针对某一特定靶点显示出活性的一组化合物被称为该靶点的活性类。作者从ChEMBL生物活性数据库中选择了针对十个靶点的十个活性类,并在其上比较了kNN(k最近邻)和GCN的性能,如表1所示。

表1:活性类和性能记录

鉴于Sakai等人也采用GCN在这十个类进行了效价预测,表1在右手边也记录了他们的结果。从MAE指标来看,kNN方法总是好于GCN。

图1:不同活性类的效价数据分布

作者还画了这十个活性类的效价数据分布图,如图1所示。pIC50是衡量效价的指标之一,表示抑制50%活性所需要的化合物浓度。pIC50越低表示化合物越强,这说明只用很小的浓度就能达到效果。图1a是密度图,可以看成直方图的平滑版本,x轴单位是微摩尔。图1b是小提琴图。图1a说明效价数值存在显著重叠,图1b显示效价中值落入pIC50的6-8范围内。

机器学习方法

对于选择的活性类,作者用三种方法构造了数据集。第一种方法是选用几乎所有数据,第二种是随机选取若干条数据,第三种是选取多样性高的若干条数据。

之后作者选择了如下模型:支持向量回归(support vector regression, SVR);随机森林回归(random forest regression, RFR);深度神经网络(deep neural network, DNN)和图卷积神经网络(graph convolutional neural network, GCN)。作为对照,除了kNN外,作者还额外引入了中值回归(median regressor, MR)。其中kNN指的是找k个最相近的训练集化合物,拿它们的效价去预测测试集化合物;MR指的是把训练集的效价的中值直接作为预测值。评测指标为MAE,效果如图1所示。首先十个活性类显示出了相近的性能评测趋势,其次发现kNN比一些复杂模型效果还要好。

独特和高效价化合物的预测

作者还设置了另一种数据的划分方式:将每个活性类分割为若干个相似系。每个相似性核心结构相同,这代表了一种对药物化学敏感的聚类形式。其中每个活性类中最大的相似系被拿出,作为独特保持集。模型需要根据其余相似系去预测独特保持集的效价。评价指标也是MAE,结果如图3所示。可以看到所有模型在大多数靶点上的预测精度都比较相似。这个实验的目的是看模型能否根据不太有效的个体数据(训练集中除了保持集之外的数据)去预测最有效的那部分个体(保持集)效价。

在这之后作者又进行了外推预测。图4显示了基于MAE评估的结果:使用从完整训练集导出的不同模型(kNN、SVR、RFR、DNN、GCN和MR),对每个活性类中最有效的化合物进行预测试验,报告MAE。在外推条件下,如观察到的,简单的MR将产生最大的误差。此外,对于十个活性类中的两个(靶点ID 230和4822),DNN以约0.5 MAE的裕度实现了最佳性能。原因是在这两种情况下,训练集中效价最高的化合物被过度预测,导致对测试集中结构类似的高效价化合物的更准确预测。在剩下的情况下,包括kNN在内的方法的性能也非常相似,MAE的范围从1到2,具体取决于活性类。

随机化模型

作者还研究了kNN和SVR的完全随机预测模型。这些模型是通过对训练集和测试集的效价值进行随机混洗而获得的。每种化合物的效价被随机分配给另一种,从而产生随机的结构-效价关系用于训练。图5显示了与MR相比,完全随机化的kNN和SVR预测的结果。当从随机训练集导出的模型应用于原始测试集时,获得了非常相似的结果。值得注意的是,随机模型在所有数据集中产生了约0.8–1.0 MAE。kNN的MAE值相对于SVR和MR略有增加,这在所有活动类别中非常相似。

实验结果讨论

化合物效价和其他分子性质的预测是ML在化学信息学、药物化学和药物设计中的主要应用之一。在人工智能时代,复杂的计算方法常常被用于这一目的。因此,尽管SVR是该领域广泛公认的效力预测标准,但使用各种DNN/GCN架构的预测越来越多。可是这样做的结果并不乐观,正如作者的研究所展现的,与简单的kNN计算相比,使用复杂的ML模型几乎没有好处。

kNN分析已经成功地用于化学相似性搜索和化合物分类。基本原理在药物化学中很常见:许多类似的化合物(如结构类似物)具有相似的功效。当然也存在例外,即活性悬崖(结构类似,但效价差异很大的化合物)。显然,kNN计算等简单方法应作为评估化合物效价或其他性质预测新计算方法的参考。现在的问题是,根据本文结果,与这些简单的预测相比,可能很难牢固地确立ML方法的优势。kNN与SVR不相上下,表现优于DNN/GCN。

此外,最佳预测和随机预测之间的小差距揭示了传统基准测试的一个主要缺点,即使是传统基准也不是那么可靠。因为实验结果显示,简单地将训练集的效价中值分配给任何测试化合物(MR)都会产生0.8–1.0的MAE。值得注意的是,这个误差范围与完全随机的预测紧密匹配。如本文所示,这些发现是药物化学中活性类别的效价分布的直接结果。在实际应用中,持续预测新化合物的效价在一个数量级(十倍)以内将是相当成功的。然而,在基准设置中,随机预测人为地产生了这种程度的“伪精度”。因此,在这些条件下,评估计算方法的“真实”性能非常困难。

如果指标不可靠,接下来我们的可能思路就是通过模型发现化合物潜在效价的能力来评估其性能。但这也有争议,如果一个模型能识别出一种或多种新的活性化合物,不能说他一定是更有效的,除非有确凿证据说明kNN这类简单方法完全没有识别新实体的能力。

还有其他具有挑战性的预测任务需要特别考虑。作者说的是活性悬崖可能被模型当成异常值这件事。目前的模型大多基于结构-效价进行设计,这样相当于直接把活性悬崖排除在外了。例如,来自药物化学的后期主要优化数据通常包含许多非常相似的化合物,它们的效价也相似,只有少数“异常值”代表活性悬崖。从统计角度来看,这种结构-效价关系的流行有利于简单的kNN预测,但不适用于搜索形成活性悬崖的有趣化合物。这为能够定量解释结构-效价关系中高度不连续性的统计不足情况的方法留下了很大的空间。

总之,这里有两个问题。第一,复杂模型不如简单算法。第二,即使简单算法,作为评测基准也存在理论上的缺陷。这些都是值得考虑的。

实验方法

化合物和活性类

从ChEMBL中提取了活性类。选择了与人类靶点蛋白直接相互作用的生物活性化合物,其报告的置信度最高(目标置信度为9),且具有数值规定的效价(IC50)值。仅保留分子量小于1000 Da且pIC50值在5–11范围内的化合物。之后作者去除了可能干扰分析的化合物,一共选择了至少包含1000种合格化合物的十个活性类别,总共13444种化合物。

数据集设计

对于每一个活性类,随机选择组成三个训练集:“原始”训练集,每个类别包含80%的化合物;小规模随机数据集,每个类随机选20%;小规模多样性数据集,每个类选20%,和随机数据集比,人为增加了化学多样性。生成数据集的方法使用了MaxMin相异性算法。

使用的机器学习方法

支持向量回归:支持向量机的一种变体

随机森林回归:一种基于决策树集合的监督ML方法。

深度神经网络:前馈DNN是通过使用非线性激活函数f(x)将输入值映射到其输出值的深度学习方法。基本的DNN架构由一个输入层、多个具有可变数量神经元的完全连接的隐藏层和一个输出层组成。

图卷积神经网络:深度神经网络的一种变体,能直接从图中学习特征表示。

K近邻:一种非参数回归方法,基于与训练样本的最短距离(最高相似度)去预测实例。例如,对于1-NN,将最相似训练化合物的效价分配给测试化合物;对于3-NN,预测测试化合物的前三种最相似化合物的平均效价。对于kNN预测,评估了一种、三种和五种最相似的化合物,以确定表现最佳的k值。使用scikit-learn进行kNN计算。

中位数回归:作为对照,通过将给定数据集的效价中值分配给该组中的每个测试化合物来作为预测。

随机预测:作为另一个对照,通过对每个训练集的化合物的效价进行随机打乱来进行随机预测。

计算协议:对于所有有监督的ML模型,使用统一的计算协议。对于“原始”训练集,将剩余20%的化合物用作测试集;而对于小规模训练集,随机选择5%的化合物作为测试集以确保恒定的训练集与测试集比率。通过网格搜索和十折内部交叉验证优化超参数,以最小化模型误差。对于每个数据集和方法,使用独立导出的模型进行了十次单独的预测试验。

分子表示、相似性计算和相似系:对于kNN、SVR和DNN,使用带直径的标准扩展连接性指纹(ECFP)表示化合物,并使用RDKit生成2048位版本。对于kNN,Tanimoto相似性也是基于ECFP计算的。对于GCN模型,使用DeepChem将化合物转化为包含75个原子特征的二元向量。对于每个活性类,使用化合物-核心关系算法去识别相似系。

性能评估指标:论文图中是采用MAE进行评估,附录扩展图中还有对应的RMAE评估版本。

图2:模型预测精确度

图3:独特保持集的预测精度

图4:最有效化合物的预测精度

图5:随机预测模型的性能

参考资料

Janela T, Bajorath J. Simple nearest-neighbour analysis meets the accuracy of compound potency predictions using complex machine learning models[J]. Nature Machine Intelligence, 2022: 1-10.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档