

文献信息
近年来,深度学习在药物研发领域取得了令人瞩目的进展。与传统机器学习和定量构效关系(QSAR)方法相比,深度神经网络在以下任务中展现出强大能力:
然而,深度学习的强大能力往往以可解释性的丧失为代价。模型捕捉输入(化学结构表示)与输出(生物活性读数)之间复杂关系的能力越强,其内部决策逻辑对人类而言就越晦涩。
这一矛盾在药物研发中尤为突出。药物化学家长期依赖"经验法则"(rules of thumb)将生物活性与理化性质关联,这种对可解释、可验证模型的需求,在某些情境下甚至优先于模型精度本身。此外,"为错误原因给出正确答案"的Clever Hans效应在深度学习中普遍存在,若不加以识别,可能导致结论性错误。
正是在这一背景下,可解释人工智能(Explainable AI, XAI)成为药物研发领域亟待攻克的核心议题。
本文作者认为,一个面向药物设计的 XAI 系统,至少应具备以下四项核心属性:
属性 | 含义 | 药研意义 |
|---|---|---|
透明性(Transparency) | 系统如何得出某一特定答案 | 让化学家理解模型决策路径,增强信任 |
合理性(Justification) | 为何所给答案是可接受的 | 确保预测符合已知药物化学规律 |
信息量(Informativeness) | 向决策者提供新的洞见 | 揭示未知构效关系,驱动假说生成 |
不确定性估计(Uncertainty Estimation) | 量化预测的可靠程度 | 指导主动学习,规避高风险决策 |
此外,XAI 生成的解释可从两个维度分类:
两者各有用武之地,在实际应用中往往需要结合使用。

特征归因是目前在药物发现中应用最广泛的 XAI 技术族。其核心目标是:给定一个模型 ,构造一个归因函数 ,输出每个输入特征对最终预测的贡献程度。

该大类下包含三个子类:
通过计算模型输出对输入的偏导数 来衡量特征重要性。代表方法包括集成梯度(Integrated Gradients)和 SmoothGrad。梯度法依赖反向传播,计算效率高,但多项研究指出其可能仅能部分重构原始特征,存在误读风险。
药研应用:McCloskey 等人使用集成梯度检测神经网络模型中对配体结合相关的药效团(pharmacophore),但同时发现模型存在学习虚假关联的问题,强调了 XAI 验证的必要性。
核心思路是构建一个可解释的近似模型 来拟合原始复杂模型 。加性特征归因方法(Additive Feature Attribution)是该子类的主流框架:
其中 代表第 个特征的重要性系数。代表方法包括:
全局代理模型(如决策树或决策集)则尝试整体描述模型 的计算逻辑,适用于对模型整体行为的宏观理解。
通过修改或遮蔽输入的特定部分,观察模型输出的变化来评估特征重要性。方法包括特征掩蔽(feature masking)、扰动分析(perturbation analysis)、响应随机化(response randomization)等。优点是可直接估计特征重要性,缺点是计算开销随特征数量增加而显著增大。
关键局限:特征归因方法的可解释性,根本上受限于所选择的分子表示(输入特征)。若使用"不透明"的分子描述符,即便归因结果精确,对化学家而言也难以理解。作者强烈建议使用对化学家具有直接意义的表示,如 SMILES 字符串中的原子-键类型、分子图等。
实例推理方法从反事实推理(Counterfactual Reasoning)的视角出发,回答"如果……会怎样"的问题。其核心是计算一个特征子集,该子集的存在(或缺席)能保证(或改变)模型预测。

构建一组 if-then 规则,保证满足该规则集的样本以概率 被分类为目标类别:
锚点方法明确建模了解释的"覆盖范围"(coverage),这是其区别于其他局部方法的重要特性。
给定模型 和原始样本 ,寻找距 最近且被 分为不同类别的样本 :
第一项驱动预测改变,第二项约束 与 在特征空间中保持邻近。改进版本引入自编码器架构,使反事实样本更贴近真实数据分布。
同时生成"相关正例"(Pertinent Positives,保证正预测所需的最小特征集)和"相关负例"(Pertinent Negatives,保证区分其他类别所需的最小缺失特征集),形成形如"样本 x 被分为 y 类,因为特征 {x₁,...,xₖ} 存在,且特征 {xₘ,...,xₚ} 缺失"的解释。
潜在药研应用(文中指出尚未有实际应用报道):
分子图(Molecular Graph)是分子拓扑结构最自然的数学表示——原子为节点,化学键为边。图卷积神经网络(Graph Convolutional Neural Networks, GCNNs)作为神经消息传递(Neural Message-Passing)算法的特例,天然与这一表示契合,为可解释性创造了得天独厚的条件。

GNNExplainer 是代表性的模型无关方法。给定节点 ,通过最大化互信息(Mutual Information)目标,识别对预测 贡献最大的子图 及节点特征 :
案例:GNNExplainer 在鼠伤寒沙门氏菌致突变性数据集上识别出多个已知致突变官能团(芳香族/杂芳香族硝基化合物),与文献结果高度一致。
在图卷积的消息传递框架中引入注意力系数 ,使节点 在第 层的隐表示由其邻居特征的加权和计算:
注意力系数作为边级别的"重要性"指标,可直接可视化,指示哪些原子间相互作用对预测贡献最大。
已报道应用:
前述方法均属于事后解释(Post Hoc Interpretation),即先训练模型,再附加解释机制。自解释方法则将可解释性内置于模型设计之中,是更具前瞻性的研究方向。
以贝叶斯案例模型(Bayesian Case Model)为代表,学习数据集中最具代表性的"原型"样本及其关键特征,以原型为基础进行预测,模拟人类"基于案例推理"的决策方式。神经网络版本(原型层网络)在隐空间中存储可学习的原型向量,通过编码距离进行预测。
联合学习类别预测和特征-概念映射,网络由三部分组成:(1) 将原始输入映射为可解释概念的子网络;(2) 为每个概念生成系数的参数化器;(3) 聚合前两部分输出的汇聚函数。
计算网络层激活相对于输入方向的导数,量化某一人类可解释概念(如"有芳香环")对特定预测的重要程度。
深度网络与语言模型结合,直接生成人类可读的预测解释文本。受限于需要大量人工标注训练数据,在药研任务中的适用性尚存疑。
不确定性估计是模型解释的另一维度,回答"这个预测可以相信到什么程度"的问题。

误差类型 | 来源 | 可减少性 |
|---|---|---|
认识论不确定性(Epistemic) | 模型选择和超参数的不确定性 | 可通过更多数据或更好模型减少 |
偶然论不确定性(Aleatoric) | 实验数据本身固有的噪声 | 不可减少,与建模无关 |
集成方法(Ensemble-based):训练 个相同架构但不同初始化的模型,以预测均值为最终输出,以预测方差为不确定性估计。快照集成(Snapshot Ensembling)通过存储训练过程中的模型状态,降低计算开销。
概率方法(Probabilistic):将神经网络视为贝叶斯模型,对权重施加先验分布并推断后验。代表技术包括:
其他方法:信任分数(Trust Scores)、距离法(Distance-based)、LUBE 区间估计等。
药研中的应用:
论文以 CYP3A4(一种参与约 75% 人体药物代谢的关键酶)为例,展示了 XAI 的实用价值。

方法:集成梯度 + 图卷积神经网络,训练于公开的 CYP3A4 底物/抑制剂数据集
验证药物:
结果:
这一案例表明,XAI 已能在真实药研场景中提供具有化学意义、且可被实验验证的解释。
工具 | 描述 | 支持方法 |
|---|---|---|
Captum | PyTorch 官方可解释性扩展库 | 集成梯度、SHAP、LRP 等大多数特征归因方法 |
Alibi | 基于 scikit-learn / TensorFlow 的模型解释库 | 锚点算法、对比解释、反事实实例 |
作者指出,XAI 在药物发现中的未来发展将聚焦于以下方向: