今天为大家介绍的是来自北京大学AI4S平台中心主任、信息工程学院陈语谦教授团队提出了一种基于跨域元学习的图注意网络Meta-GAT,它可以在少数样本上可靠地预测分子属性。提议的图注意力网络可以有效地捕获任何原子间的相互作用以及键的边缘信息,以此来捕获原子的局部化学环境,并学习整个分子水平的几何空间结构和连接性。Meta-GAT利用分子数据中有用的未标记信息,并进一步开发有效的学习过程来转移来自源域的元知识。具体来说,Meta-GAT 模型对不同源域的大量类似分子进行先验分析获得元知识。Meta-GAT 受益于元知识,在转移到新的化学空间时降低了样本复杂性的要求。然后Meta-GAT 通过几个样本的内部迭代快速适应目标域中新支架集合的分子。实验表明,Meta-GAT 在多个基准生物活性和生理数据集上实现了最先进的领域泛化性能,并且在低数据约束下稳健地估计了各种分子特性数据集的不确定性。这些优势表明Meta-GAT很有可能成为面向少量样本的虚拟筛选技术的可行选择。
此外,本研究建立了Meta-MolNet基准平台,它管理了一套以分子骨架划分的高比率的分子/骨架的基准数据集,创建了一个能衡量提议的算法在不确定性量化和泛化评估领域有效性的分子平台。并且Meta-MolNet还为用户提供了便捷的加载所有基准数据集的方式。Meta-MolNet评估了现有的单任务、多任务和自监督方法作为基线,证明了Meta-MolNet具有衡量算法在域泛化和不确定性量化评估中是否有效的能力。Meta-MolNet 基准有效地解决了在少量样本的药物发现中领域泛化和不确定性量化的挑战,并促进了神经网络模型在化学科学中的稳健应用。
图1. 用于少量样本药物发现的基于跨域元学习的图注意网络Meta-GAT和Meta-MolNet 基准平台概述。
方法
元学习(Meta Learning),即“学会去学习”,指的是在多个学习情景上改进学习算法的过程。元学习的目标是设计和训练具有较强适应性和泛化能力的机器学习模型。与一般神经网络的端到端训练方法不同,元学习通常采用情景(episode)策略的方式进行训练,元训练和元测试过程都需要支持集和查询集。一个情景可以理解为一个特定的场景或任务。元学习强调任务空间的概念,任务和数据都需要采样。
Meta-GAT中的任务定义与以前的元学习方法不同。任务被定义为属于同一个骨架的分子集合的性质预测任务,无论该性质可以是单任务、多任务、回归任务或者分类任务。本研究结合药物开发的实际流程,对公开的基准数据集按照骨架划分的方式重新组织。包含了丰富的骨架族任务的基准数据集满足了元训练阶段需要丰富任务的需求,以此拓展了元学习算法在分子单个性质或少量性质的预测任务的应用。另外,每一个围绕在骨架周围的分子集合都存在着数据偏移,以此划分的训练任务和测试任务能衡量提议模型的域泛化能力。因此,本研究建议将Meta-GAT的任务定义为同属一个骨架的分子集合的属性预测任务。这确保了元学习方法在药物发现领域的广泛应用,以及实验数据衡量模型泛化的能力。
跨领域元学习通过将源域丰富的分子数据中的知识转移到目标域,减少了模型学习所需的数据集的大小。对于多骨架分子数据集的性质预测问题,首先将分子骨架族分为训练任务和测试任务,即源域Dsource和目标域Dtarget。然后,从源域中随机选择N个骨架的预测任务。对于N中的每一个任务,随机采样k个分子样本作为训练数据,L个分子样本作为测试数据。训练数据和测试数据通常分别称为支持集和查询集。这样,就创建了训练过程中的一个情景。重复这个过程以增加情景的大小,从而形成一个代(epoch)。接下来,元训练过程使用双层优化来解决少量样本难以学习问题。双层优化是指一个优化内部含有另一个优化作为约束的分层优化问题。
图注意力网络(Graph Attention Network,GAT)在化学信息学领域取得了实质性进展,它具有学习分子结构和属性之间复杂关系的非凡能力。分子结构涉及原子和复杂电子构型之间的相互作用,并且原子的空间位置受物理定律支配。分子中拓扑相邻的节点彼此相互作用的机会更大。在某些情况下,它们还可以形成决定分子化学性质的官能团。此外,原子对之间的拓扑距离即使较远,它们同样也可能存在着彼此相互作用,例如分子内氢键。
图2. 图注意力网络架构示意图。
提议的GAT使用节点和边分别表示原子和键,从局部和全局的角度提取分子结构和特征的见解,如图2所示。GAT通过注意力机制在原子水平上捕获原子团的局部效应,也可以在分子水平上模拟分子的全局效应。具体来说,GAT首先对邻居节点的状态向量及其边缘隐藏状态进行线性变换和非线性激活,将这些向量对齐到同一维度,并将它们连接成三元组嵌入向量。然后,通过对所有邻居节点进行softmax函数归一化以获得注意力权重。节点嵌入以目标原子为中心,将节点隐藏状态和边隐藏状态逐元素乘以邻居节点表示,并根据注意力机制迭代来聚合邻居节点和边的信息,得到了目标原子的上下文状态。最后,为了包含更多来自分子的全局信息,GAT通过读出函数聚合原子级表示,它将整个分子视为连接分子中每个原子的超虚拟节点。使用基于注意力的BiGRU从两个方向将节点特征与历史信息逐步聚合起来,从而获得图(分子)级别的全局表示。GAT将来自原子的特征信息,相邻原子的特征和连接键的特征信息组成的三元组信息通过递归的消息传递机制和注意力机制来学习每个原子的上下文表示。最终的向量表示可以作为分子结构信息的高质量描述符,降低了元模型对于分子图中的无监督信息的学习难度。
数据集
Meta-MolNet基准平台为衡量现有模型的泛化和不确定性量化能力提供了统一的标准,这对于推动计算化学的发展至关重要。分子数据通常高度异构、成本高昂且范围广泛,使得数据收集极其昂贵、耗时且费力。Meta-MolNet基准测试重组了之前的公共数据库,并将许多子基准测试合并为多样化的基准测试,涵盖了广泛的分子特性,从量子力学特性到对人体的生理效应。该基准测试还涵盖多任务、单任务、回归任务和分类任务,表1列出了Meta-MolNet 基准中单个数据集的详细信息,包括类别、类型、分子数、骨架数、分子/骨架比、阈值等。分子/骨架的比率低于一定阈值的分子子集将被丢弃,详细信息请参见阈值列。以减少总体数据集大小为代价,它显着提高了数据质量和基准测试的挑战。
实验
图3. 已有方法在公共数据集上使用三种验证设置(随机交叉验证、低比率的分子/骨架和高比率的分子/骨架)的性能比较,其性能依次显着下降。
缺乏合格的评估数据会严重损害模型预测结果的可靠性。分子数据的化学空间是离散且稀疏的,存在有数据偏移现象。图3显示了同一方法在公共数据集上三种验证设置(随机交叉、低比率的分子/骨架和高比率的分子/骨架)下的实验结果,其性能依次显着下降。这证明骨架分割是比随机分割更有用的性能衡量标准。现有算法通常使用随机交叉验证进行基准测试。由于随机交叉验证的信息泄漏,模型可能在测试集的性能指标上获得高分。这使得很难衡量所提出的技术是否真正提高了性能。评估标准必须强制训练集和测试集之间分子骨架的零重叠。低比率的分子/骨架比和高比率的分子/骨架之间的性能差异进一步证明,分子/骨架的高比率划分通常会导致更困难的数据移位和泛化问题。现有模型在分子/骨架比例较高的分子数据集上没有预测能力,这表明只有少数样本点的分子数据集固有的随机性和噪声可能会损害模型的评估质量。在分子/骨架比例较低的数据集中,同一骨架中可能只有几个分子样本点。数据点可能不具有代表性,模拟得到的偏差不足以表征数据移位现象。新骨架的可靠数据点越多,衡量模型性能和泛化能力的评估结果就越可靠。然而,在目前广泛使用的基准数据集中,分子/骨架比率的平均范围仅为1.31 - 4.22。构建最先进、稳健且真实的模型需要具有高比率的分子/骨架基准数据集。模型的性能在具有高比率分子/骨架划分的分子数据集上进行评估,可以更好地反映其克服数据移位和泛化的能力。这样的评估设置可以正确评估模型性能是否得到改善,可以将提议的模型部署到一系列分子特性预测和药物发现任务中。
图4. Meta-GAT (k=1) 与基线模型在 3 个单任务(ZINC、PDBbind、LD50)和 1 个多任务 (ChEMBL) 回归数据集上的性能比较。
图4显示了所有方法在 3 个单任务和 1 个多任务回归数据集上的整体性能。k表示支持集的大小。RMSE值越低,表示模型性能越好。在少数样本 (k = 1) 上训练的 Meta-GAT 的性能明显优于基线模型的性能。Attention FP 提供了令人满意但稍差的预测。CMPNN 在 ALogP 任务上给出了令人满意的预测,而 Attentive FP 在 LogD 任务上实现了最好的预测。相比之下,三种经典的机器学习方法SVM、RF和XGBoost表现较差。对于小规模基准数据集,预训练模型(CDDD、Mol2Context-vec、MolBERT、N-Gram、PreGNN)与基于图网络的模型之间的性能差异并不显着。从结果中观察到一些基线方法在两个任务上都没有稳定的性能,例如 CDDD、MolBERT、CMPNN、DMPNN 等,其中 CDDD 在 ALogP 任务上表现良好(RMSE = 0.2121),但在 LogD 任务上表现不佳( RMSE = 0.6641)。
图5. Meta-GAT (k = 1) 与基线模型在 7 个分类数据集上的 ROC-AUC 或 PRC-AUC 性能比较。
图5报告了 Meta-GAT 和 13 个基准模型在7个分类数据集上(PCBA、MUV、HIV、GSK3、JNK3、Tox21和ToxCast)上的 ROC-AUC 或 PRC-AUC 结果。PCBA和MUV通过PRC-AUC进行评估,这在高等级不平衡情况下更实用。Meta-GAT 同样使用 k= 1 设置进行训练。对于 GSK3 和 Tox21,Mol2Context-vec 都实现了最佳预测,而 Meta-GAT 稍逊于它。Meta-GAT 在 PCBA 中提供了比其他模型更有前景的结果 (PRC-AUC = 0.1972)。尽管 Meta-GAT 在 MUV 上取得了最佳性能,但似乎很难区分哪个模型更有前途,所有模型的 PRC-AUC 差异不大。SVM、RF和xgboost提供的预测很差,这与回归任务的评估结果类似。一些图网络模型在某些数据集上表现良好,但在5 个分类任务上并不总是稳定。在5个数据集上,四种预训练模型Mol2Context-vec、MolBERT、N-gram和PreGNN的预测性能几乎相同。总的来说,Meta-GAT 提供了令人惊讶的性能,其平均性能相对于其他基线有明显的优势。
图6. 置信度曲线展示了模型在目标域中新骨架分子数据集上的RMSE或准确度随着置信度百分位的变化。图例中的值是置信度误差曲线下的面积。由于y轴的差异,在回归任务中优选较小的AUCO,而在分类任务中优选较大的AUCO。
分子表示模型需要具有量化不确定性的能力。不确定性量化反映了提议的模型在看到分子时的“惊讶”程度。如果该值较低,则模型对分子的预测是确定的。对于这些不确定的样品,模型应该给出很高的不确定性,表明模型不了解分子结构。这将指导研究人员更好地利用模型预测结果。本研究通过使用蒙特卡罗 dropout(MC dropout)来估计具有高比率的分子/骨架的分子数据集的模型不确定性。该算法在测试期间保持 dropout开启,以使用不同的随机掩码对M 进行采样从而输出预测的 y ,并通过伯努利分布的乘积来近似后验分布。每个不同的随机dropout 掩码对应于近似后验的样本。
不确定度估计的质量是通过考虑当去除测试数据集中具有最高不确定度的分子时,误差如何变化来操作的。图6显示了几个基准数据集的置信曲线,其中突出显示了新骨架分子数据集误差如何作为置信百分位的函数变化。置信度是不确定性的倒数。阴影面积是一个标准差。回归数据集的y轴RMSE误差尽可能低,而分类数据集的y轴准确度尽可能高。图例中的值是置信度误差曲线下的面积 (AUCO),以方便比较不同方法的不确定性估计。在每种情况下,误差都是模型置信度的递减函数,因此模型可以成功估计哪些预测可能是正确的,哪些是异常值。对于所有回归数据集,所有方法的置信曲线大多都在递减,并且 RMSE 误差在 100% 置信限附近大致相当。这意味着每种方法都可以根据预测的不确定性对预测进行定性有意义的排名。与其他模型相比,Meta-GAT 的误差显着下降,在平稳前的低置信限处偏差较小,并且在高置信度处给出最低的误差,这对于高风险的药物发现来说是很重要的。与回归数据集相比,所有方法在分类数据集上的置信曲线在初始阶段都更加嘈杂。Meta-GAT的准确性远高于其他模型,并且不同置信百分位数截断时的分子子集上的误差具有较低的不确定性。总体而言,对于所有大于 50% 的置信度百分位截断值,Meta-GAT 的误差低于其他基准,表明 Meta-GAT 在根据误差对不确定性进行排名的能力方面表现良好。在相同的置信度百分位数下,基于元学习的方法始终优于图卷积基线,显示出巨大的改进。这些结果证明了 Meta-GAT 在实现分子表征的不确定性量化方面的前景。
结论
该研究为少量样本的药物发现提出了一个跨域基准,Meta-MolNet,它包含了跨域元学习模型Meta-GAT和 12 个基准数据集,这些数据集涵盖广泛的分子特性从量子力学特性到对人体的生理效应。将这些公开的化学药物相关的数据处理成AI-ready的数据,来吸引AI社区的研究者来关注在解决有现实意义和有价值的生物医药问题上。本研究希望Meta-MolNet能够作为一个基准平台,并吸引到化学信息学和生物信息学社区的极大关注,从而激发出更好地理解分子化学的新方法。
参考资料
Lv, Qiujie, Guanxing Chen, Ziduo Yang, Weihe Zhong, and Calvin Yu-Chian Chen. "Meta-MolNet: A Cross-Domain Benchmark for Few Examples Drug Discovery." IEEE Transactions on Neural Networks and Learning Systems (2024).