iScience｜不确定性量化问题：我们可以相信AI在药物发现中的应用吗？

智药邦

发布于 2022-11-16 18:15:48

2.2K0

发布于 2022-11-16 18:15:48

文章被收录于专栏：智药邦智药邦

2022年8月19日，中科院上海药物所郑明月等人在iScience杂志发表文章Uncertainty quantification: Can we trust artificial intelligence in drug discovery，总结了AI药物发现中不确定性量化问题的最新研究方法以及代表性应用。

摘要

近年来，计算机模型已被广泛用于加速药物发现过程。然而，这些模型中的大多数只能在训练集覆盖的有限化学空间（适用性域）内给出可靠的预测，对超出适用性域的样品的预测并不可靠，甚至会对药物设计决策过程带来误导。

不确定性量化（Uncertainty quantification，UQ）问题是自主药物设计中的重要问题。通过量化模型预测的置信水平，可以定量表示预测的可靠性，以帮助研究人员进行分子推理和实验设计。

本文总结了不确定性量化的最新方法，并强调了如何将其用于药物设计和发现项目。此外，还概述了不确定性量化在药物发现中的四个代表性应用场景。

前言

人工智能和其他数据驱动的方法正在重塑药物发现和设计流程。对于具有大量训练数据的任务，监督学习可以有效地映射输入和输出之间的关系。一个典型的场景是基于一级序列预测蛋白质结构，其中AlphaFold2被认为已经解决了这个半个世纪的问题。然而，在大多数药物设计任务中，可用于训练的数据的数量通常是有限的。训练数据与测试数据分布的不一致可能导致模型产生不可靠的输出，这可能会对药物设计的决策程序产生不利影响。

图1 Softmax函数给出的概率不能被可靠地视为是预测的置信度

图1B显示的是模型在训练集和测试集上给出的概率。可以看出，该模型在训练部分拟合良好，但在测试部分给出了过于自信的错误预测。

评估UQ方法的质量比较困难，因为这与应用场景和用户的目标相关。但总的来说，UQ方法的排名和校准能力是被关注最多的两个方面。排名能力旨在表征不确定性与误差之间的相关性。具有理想排名能力的UQ方法应为具有较大误差的预测分配较高的不确定性值。校准能力旨在表征指示误差分布的能力。例如，在回归设置下，UQ模型是否可以精确估计误差分布的方差，这对于置信区间估计是有用且重要的。

UQ和AD

在化学界，长期以来一直存在一些类似于不确定性量化的概念，其中最常见的是QSAR模型的适用性域（applicability domain，AD）。

UQ和AD具有相同的目的：帮助研究人员确定样本的预测结果是否可靠。与UQ相比，传统的AD定义方法更面向输入，一般考虑样本的特征空间或子特征空间，较少考虑模型本身的结构。相应地，UQ的概念更广泛，可以指用于确定预测是否可靠的所有方法。因此，UQ 在概念上涵盖了AD定义方法。在这里，一些经典的AD定义方法被归类为基于相似性的UQ方法，并将在“基于相似性的方法”一节中介绍。

本文将回顾UQ在当前药物设计和发现范式中的概念、方法和应用，更加关注UQ的具体应用案例，并解释所用方法的基本原理，希望能为在药物设计中部署可信的AI模型提供见解和实践指导。

药物发现不确定性的来源

根据不同的来源，不确定性大致可分为三类：近似的(approximation)不确定性、偶然的(aleatoric)不确定性和认识论的不确定性(epistemic uncertainties)。

近似的不确定性解释了由于简单模型无法拟合复杂数据而导致的误差，例如线性模型拟合正弦曲线所产生的误差。

偶然的(aleatoric)不确定性(源自拉丁语alea，意思是掷骰子)描述了待建模的数据的内在随机性（噪声）。这是数据的固有属性，无法通过收集更多的训练数据来减少这种不确定性。在药物发现项目中，数据噪声总是来自于不同的实验测量，这些测量结果因两个主要误差源而变得复杂：系统误差和随机误差。

认识论的不确定性(epistemic uncertainties，源自希腊语Greek episteme，意为认识)代表了与样本空间某些区域（例如，模型AD之外的化学空间）缺乏训练模型知识相关的错误。

不确定性量化方法

大量的UQ方法已被部署在药物发现项目中。本文提出了一种新的分类方法来跟踪各种UQ方法的发展路径。通过关注这些UQ方法的理论基础，将其分为三种类型：基于相似性的方法、贝叶斯方法和基于集成的方法。本文总结了他们的核心思想、代表性方法和示例应用 (表1)。以下各节将介绍这些 UQ方法和相关概念。

表1 不确定性量化方法的总结

基于相似性的方法

基于相似性的方法基本上采用这样的概念：即如果测试样本与训练样本过于相似，则相应的预测可能不可靠。在实践中，用户应首先选择或定义一种方法来测量测试样本与训练样本之间的距离，然后将该距离视为预测的估计不确定性。其中一些方法已被广泛用于定义QSAR模型的AD。

贝叶斯方法

神经网络的训练过程可以被看作是学习概率模型p(Y|X,θ)的最佳参数θ。频率论者(Frequentists)和贝叶斯论者(Bayesians )采用不同的策略来解决这个问题，他们的差异在图3中得到了直观的体现。

图3 传统神经网络与贝叶斯神经网络的比较

传统神经网络的输出和参数是确定性值（A和C），而在贝叶斯神经网络中它们是分布（B和D）。

基于集成的方法

长期以来，人们一直观察到集成学习可以提高预测性能。然而，除此之外，集成学习也可以用于UQ。

集成学习旨在构建多个相似但不同的基础学习者。通常，基础学习者的预测被整合到最终预测中（例如平均值，中位数等），并且它们的方差被视为对认识不确定性的估计。

基于集成 UQ方法的图示

（A）数据扰动。子模型基于原始训练集的不同子集进行训练。

（B）特征扰动。子模型基于原始样本特征的不同子集进行训练。

（C）输出扰动。模型的输出不再是确定性值，而是差异。

（D）权重扰动。子模型通过在预测过程中保持dropout open来生成。

数据扰动（Data perturbation）。数据扰动通常基于采样。给定一个初始数据集，可以对不同的子集进行采样，然后用于训练不同的基础学习者以增加多样性。数据扰动对于某些类型的基础学习器（例如对训练数据敏感的神经网络）非常有效，但由于训练数据的收缩，它也可能会损害神经网络的预测性能。

特征扰动（Features perturbation）。对于ML模型，训练样本总是由一组属性（例如，分子描述符或分子指纹）表示，这些属性可以被认为是一个特征空间，不同的特征子空间可以提供样本的各种视角。

输出扰动（Outputs perturbation）。输出扰动通过将原始任务替换为其他相关任务来增强多样性。

权重扰动（Weights perturbation）。与其他扰动方法相比，权重扰动方法迫使基础学习者更直接地获得不同的权重。

不确定性定量在药物发现中的应用

估计模型的最大可实现精度

计算机模型的性能取决于训练数据的质量。在大多数药物发现项目中，训练数据的标签总是由具有固有变异性的实验测量来定义。因此，训练数据中的固有标签不确定性或噪声决定了模型的最大可实现精度（MAA）。根据当前可用的数据估计模型的MAA对于后续机器学习研究非常有启发性。

鉴于训练数据的标签不确定性与上述模型的MAA之间的密切关系，可将模型的MAA估计问题分为两个子问题：（1）如何估计当前可用数据中的标签不确定性，以及（2）如何量化标签不确定性与MAA之间的关系。

Kramer等人的先前工作为第一个子问题提供了范式。他们首先通过一系列数据过滤步骤从ChEMBL数据库中提取了所有高质量的Ki数据。之后，他们分析了已发表的相同蛋白质配体系统Ki测量值之间的差异，以估计Ki数据中的实验误差。他们的实验（或标签）不确定性估计产生了0.44 pKi单位的平均误差，标准偏差为0.54 pKi单位，这意味着如果基于非均质（即各种实验室，测定条件，测定方法）的模型的平均误差小于0.44 pKi单位，则模型很可能被过度训练。

对于第二个子问题，一些研究试图人为地将模拟噪声（通常从具有不同方差的正态分布中采样）添加到数据集的标签中，以研究建模数据的标签不确定性与模型性能之间的相关性。通过这种方式，原本未知的数据噪声被转化为具有已知值的可控变量。

除了直接估计数据的平均误差外，推断模型MAA的另一种策略是不确定性量化。具体来说，在贝叶斯系统中，总不确定性可以根据不同的来源分为偶然不确定性和认识论不确定性。前者是不可约和固有数据噪声的结果，后者是由训练集提供的知识不足引起的。因此，预测的不确定性在总预测不确定性中的比例可以用来估计一个模型是否达到了可能的MAA。

主动学习

由于生物和化学实验的时间和资源密集型的特点，如何生成新数据以更有效地提高模型性能是药物发现的关键问题。为了解决这个问题，主动学习（AL）是一种不确定性引导算法，并被越来越多地使用。在 AL 中，模型通常使用有限的训练集（例如，当前可用的样本）进行初始化。然后，根据预定义的查询策略（也称为选择函数）迭代选择未标记样本的批次，通过相关实验进行标记，并逐渐添加到训练集中。随后，使用这个扩展的训练集重新训练模型，期望在保留的测试集上获得更多的预测结果。

查询策略通常被称为抽样方法，以决定每次迭代应选择和标记哪些样本。以开发为导向的AL不是根据不确定性选择样品，而是提供了一个框架，通过选择迭代过程中得分最高的未标记样品，从较大的搜索空间中发现高性能化合物（例如，具有更有利分子性质的化合物）。

随着虚拟库的不断增长，许多学术研究人员无法访问对这些库进行详尽的虚拟筛选活动所需的计算资源。鉴于此，结合AL算法，Graff等人提出了一个QSAR模型来预测分子的对接分数，当只有少数分子对接时，它可以丰富大多数具有高对接分数的分子。然而，他们发现QSAR模型用纯开发导向的AL富集的分子的化学多样性非常低。为了增加化学多样性，他们采用了混合AL查询策略，该策略结合了预测的对接分数和不确定性，以指导迭代过程中的样本选择，这是UQ在AL应用中的独特方法。

虚拟筛选

高通量虚拟筛选（VS）已成为从大型化学文库中识别hit化合物的重要方法。

在基于DL的VS的典型工作流程中，来自文库的类药化合物由DL模型评分，其中选择得分最高的化合物进行进一步的实验验证。然而，最常用的化学文库涵盖了广泛的化学空间，其中大多数不包含具有经过充分研究的结构的化合物。它可能导致模型给出过于自信的预测。将UQ纳入选择过程以确保预测的稳健性是处理此问题的直观方法。

提高模型准确性和稳健性

到目前为止，我们引入的大多数策略都将UQ视为模型建立工作流程中的独立模块。一个重要原因是，我们希望在模型准确性和可解释性之间做出权衡。以牺牲精度下降为代价来获得模型的可解释性不太有利。然而，最近的研究表明，考虑不确定性的构建模型可能会产生进一步提高模型精度的有益副作用。这些类型的模型称为不确定性感知模型。一个典型的例子是 MVE（见上文）。通过更改损失函数，MVE 能够捕获具有异方差假设的数据中固有的不确定性。这意味着对于具有高噪声的数据区域，模型可以分配较大的不确定性，而不是过度拟合它们。

对于回归问题，经过良好校准的不确定性可以被视为误差的方差，因此有一种直观的方法可以将预测和不确定性组合成信息更丰富的格式，例如置信区间。但是，对于分类问题，将这两个部分集成在一起并不容易。为此，必须构建一个具有不确定性意识的分类模型架构，该架构可以提供经过良好校准的概率，并避免对分布外样本进行过度自信的预测。Han等人最近提出了GNN-SNGP，通过将高斯过程和光谱归一化应用于模型架构，可以减少过度自信的错误预测。CardioTox（一个具有显著分布偏移的心脏毒性数据集）上的结果表明，GNN-SNGP可以提高模型准确性并提供校准良好的预测。

结论和观点

本文首先介绍了不确定性的背景和来源，然后详细探讨了三种具有不同原理的不确定性量化方法和UQ的四种典型应用场景。

目前的UQ也面临着技术挑战。关于最佳UQ方法没有共识。对于不同的下游任务和任务场景，最合适的UQ方法并不一致。许多UQ方法并不容易使用，但需要针对每个应用程序场景进行定制。因此，需要设计具有不同领域迁移能力的基准数据集，在不同UQ方法之间进行公平和全面的比较。

总之，理想的UQ方法需要具备以下特性：由坚实的理论基础或合理的假设支持；易于部署；将理论与认识不确定性分开；提高模型精度；具有校准能力；低计算负担。

总体而言，在UQ方面，我们还需要走很长的路，才能让人工智能在药物开发的不同阶段的决策中发挥更重要的作用。

参考资料

Yu J, Wang D, Zheng M. Uncertainty quantification: Can we trust artificial intelligence in drug discovery? iScience. 2022 Jul 21;25(8):104814. doi: 10.1016/j.isci.2022.104814.

--------- End ---------

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2022-10-20，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络