首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >J. Chem. Inf. Model.|用于小分子药物发现的机器学习方法比较指南

J. Chem. Inf. Model.|用于小分子药物发现的机器学习方法比较指南

作者头像
DrugOne
发布2025-10-14 16:54:09
发布2025-10-14 16:54:09
130
举报
文章被收录于专栏:DrugOneDrugOne

将分子结构与性质相关联的机器学习方法常被提出作为昂贵或耗时实验的计算机模拟替代方案。在小分子药物发现中,这类方法可为化合物合成和体内研究等高风险决策提供参考。然而,由于其涉及多学科交叉,提出统计学上严格且符合领域特点的方法比较方案本质上是一项困难任务。缺乏此类方案或方法学指南可能导致理想中的进展与实际影响脱节,从而减缓机器学习方法在小分子药物发现中的应用。

2025年9月11日,来自强生创新药物、Valence Labs、诺华制药、拜耳创新中心、默沙东以及辉瑞研发团队等机构的研究人员在《Journal of Chemical Information and Modeling》发表论文“Practically Significant Method Comparison Protocols for Machine Learning in Small Molecule Drug Discovery”,通讯作者为Valence Labs的Cas Wognum。文章提出了一套指南,旨在鼓励在小分子性质建模中采用严格且符合领域特点的方法比较技术。该指南配有开源的注释代码示例,为稳健的ML基准测试奠定基础,从而推动更具影响力的方法开发。

数据链接:

https://github.com/polaris-hub/polaris-method-comparison

可重复性危机

机器学习(ML)在药物发现中的研究面临科学界普遍存在的“可重复性危机”,即大量研究结果无法被他人,甚至作者自己复现。当前,研究常强调可再现性(reproducibility),即依赖相同代码和数据重现结果,但真正更重要的目标是可复现性(replicability),即在新的、相同条件下生成的数据上仍能得到一致结果。

可复现性可分为三个层面:技术、统计和概念。其中,本文特别强调统计可复现性,即在等效条件下多次重复实验仍能获得一致结论。这一点在小分子建模尤为关键,因为数据集规模小、昂贵、且常带有噪声和不平衡,结果容易因数据划分差异而波动。

然而,当前ML药物发现领域对统计可复现性的重视不足的原因有很多。一方面,缺乏用户友好的分析工具,另一方面,执行此类分析所需的统计知识也是障碍。除此之外,研究人员和研究机构本身也发挥作用,例如,可以通过制度激励来促进可复现性研究和稳健统计分析。为此,作者提供清晰指南、带注释的示例及开源工具实现,来弥补这一差距,从而简化最佳实践的应用。

方法比较指南

本节将回顾方法比较的最佳实践,并将其转化为一套专门针对小分子性质建模用于药物发现的指导原则。图1对指南进行了总结,并作为一份可视化的目录。首先将讨论不同的采样技术,用于构建性能分布;随后将介绍用于比较性能分布的多种统计检验方法;然后将阐述领域适配的性能指标在实现实际意义中的重要性;最后将讨论如何展示这些检验的结果。

图1 方法比较指南并以决策树形式进行总结

性能采样分布

从有限数量的随机样本中估计方法的性能分布(即性能采样分布)有多种机制。作者推荐以下数据重采样机制:

指南 1 (性能采样分布):建议使用5×5重复交叉验证采样性能分布。该方案适用于小分子性质建模中常见的数据集规模(约500-100000个分子),并能生成25个足够独立的样本,满足统计检验所需的样本量。如果需要,训练集可以进一步划分为训练集与验证集。同时,需要谨慎考虑数据划分方式,因为不同划分策略可能会系统性地高估或低估模型性能。

采样性能分布主要有两种机制,包括在模型参数中引入方差(例如在神经网络中使用不同的随机种子或初始化方式)以及对数据集进行重采样(例如使用不同的数据划分)。这些采样机制的目标是降低所收集样本之间的相关性,并准确估计性能的方差,主要提出关于数据划分的指导原则。

图2 不同交叉验证重采样技术的可视化示例

交叉验证(Cross-Validation, CV,图2)是一种常用的数据重采样方法。图2分别展示了10折交叉验证、5×2重复交叉验证以及嵌套交叉验证。虽然嵌套CV方法计算量过大,但其他CV方案可以与其进行对比。对于具有代表性规模的数据集,5×5重复交叉验证(即进行5次5折CV)能够提供合理的近似估计,比常用的Dietterich 5×2和McNemar方法得到的方差估计更稳定、更准确。因此,在本文指南中推荐使用5×5重复交叉验证以改进统计检验。

可以使用高级划分方法的交叉验证。数据集可以随机划分,也可以基于时间信息(例如化合物合成或测量的日期)进行划分,或者通过最小化训练集与测试集之间的结构重叠来划分。此外,划分方法可以基于化学骨架或相似性聚类。不恰当的划分方式可能导致系统性地低估或高估模型性能。

统计显著性

在为每种方法收集了性能采样分布之后,需要选择合适的技术来比较这些分布。一个理想的统计检验应同时满足两个条件,假阳性率与其宣称的水平一致以及具有较高的统计功效。

指南 2 (统计检验):建议采用重复测量方差分析,并结合事后Tukey HSD检验来进行模型间的两两比较。

图3 两种方法性能差异的配对t检验可视化

用于比较分布差异的统计检验大体可分为参数检验和非参数检验。与非参数检验相比,参数检验对被比较的分布作出更强的假设(如正态性)。两类检验最重要的共同假设是样本之间相互独立。由于本文的方法比较流程同时关注效应量估计和假设检验,因此更倾向于选择带有可解释效应量(如均值差异)的参数检验。

在机器学习基准研究中,通常需要比较多于两种方法,并且关注所有的成对比较。这会产生大量检验。当同时进行多次比较时,错误拒绝零假设(假阳性)的概率会升高。作者推荐使用 Tukey HSD检验。该方法专为成对比较设计,并内置了多重检验校正。

实际显著性

通过统计显著性,能够确认均值之间存在差异,但尚不能判断这种差异的大小。Tukey HSD方法不仅能告诉我们差异在统计上是否显著(即分布均值是否相同),还能够提供效应量(即两个分布均值差异的大小)。然而,这就引出了一个问题:某一效应量是否具有实际显著性?当方法之间的差异足够大到在实际应用中具有意义时,才能说它具有实际显著性。为了衡量实际显著性,需要使用与下游应用相关、具有情境化的性能指标。作者建议如下:

指南 3 (实际显著性):当报告方法间存在统计显著差异时,应同时解释这种差异在实践中为何重要。采用由下游应用驱动的指标,并通过估计性能上下限来对结果进行情境化。

图4 使用回归模型的事后分类来研究实际显著性的一个示例,评价指标包括精确率与召回率。

一个性质模型的典型应用是为两个关键决策提供信息:决定要哪些化合物(即设定一个最低可接受的精确率,然后在满足该条件的情况下选择召回率最大的阈值,称为recall@precision)以及决定不要哪些化合物(为正类设定一个最低可接受的召回率,在满足该约束的前提下,选择真负率最大的阈值,称为TNR@recall)。

表1 各模型之间平均性能差异的置信区间

图4展示了三种机器学习模型的比较,在对溶解度训练三种回归模型后,发现LightGBM与两个ChemProp模型在平均绝对误差、均方误差和决定系数上存在统计显著差异。为了判断这种差异是否足够大、在实践中有意义,研究者基于100μM 阈值进行了事后分类。结果显示,三种方法在精确率上几乎相同,但LightGBM的召回率显著更低。

图5 动态范围对相关性的影响

在实际的药物研发项目中使用机器学习模型的领域专家需要理解哪些差异具有实际影响。对于统计背景有限的研究人员而言,统计学指标往往难以解读。为了促进跨学科交流,报告平均绝对误差(MAE)往往是有帮助的。相关性和误差指标都会受到数据动态范围的影响。在实验值范围更宽的数据集上更容易得到较高的相关性,而在动态范围较小的数据集上,误差指标可能会出现不合理地小的数值,从而导致误导性的结论。在小分子药物研发中,分类数据集往往存在显著的类别不平衡。在这种情况下,常规的分类指标可能会产生误导。因此,使用能够考虑类别不平衡的指标是非常重要的。

图6 效应量的示意图

有时为差异提供有意义的背景解释并不容易,这时Cohen’s D可以作为一个有用的效应量度量。Cohens’D将均值差异除以合并标准差进行标准化。这样得到的是一个无量纲的分布差异度量,它同时考虑了两个分布的方差(图6)。

此外,模型预测的终点本身受到实验噪声影响,这意味着存在一个最大可期望的模型性能。为了解决这些问题,并提高性能指标的可解释性,将结果放在性能的下限和上限背景下进行解释非常重要。

单一的性能指标几乎不可能完全反映模型在真实世界中的效用。实践中,研究人员通常依赖多维度的整体视角来评估性能,从而指导机器学习模型在不同应用场景下的使用。

结果呈现

指南 4 (结果呈现):推荐使用图表来直观展示成对比较的结果,例如同时置信区间图或多重比较相似性图。对于回归模型,建议提供额外的散点图,展示模型预测值与真实标签的对比。对于分类模型,建议提供混淆矩阵。

图7 同时置信区间图

图8 多重比较相似性图示例

图9 方法之间平均性能差异的置信区间图示例

带注释的示例

全文中所提出的所有指南都配有一组带注释的示例,这些示例使用开源软件实现所提出的方法比较协议。可用于实现这些指南的开源软件见表2。

表2 实现指南的开源软件

总结

基于机器学习的研究正面临可重复性危机。在小分子性质建模中,这一问题由于其高风险的应用场景、数据集的异质性、不平衡性以及高噪声特性,以及涉及的跨学科团队,而被进一步放大。因此,采用统计学上稳健且符合领域特点的方法比较协议,对于缩小表面进展与实际影响之间的差距至关重要。在本研究中,作者提出了一套初学者友好的指南,用于小分子性质建模中的方法比较,还提供了带注释的示例,并基于开源软件实现了这些流程。在未来的工作中,作者计划探讨小分子性质建模中机器学习模型基准测试的其他重要方面,例如数据集整理和泛化能力的评估。

参考链接:

https://doi.org/10.1021/acs.jcim.5c01609

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档