
DRUGONE
随着深度学习模型在医学影像、疾病诊断以及临床辅助决策中的广泛应用,可解释性逐渐成为医疗人工智能系统安全落地的核心要求。然而,当前大多数医学AI模型依然属于“黑箱”系统,其决策逻辑难以被临床医生真正理解,形成了所谓的“可解释性鸿沟(interpretability gap)”。本文中,研究人员提出了一种新的可解释人工智能框架——类别关联流形学习(Class-Association Manifold Learning,CAML),通过生成式建模方式统一全局与局部解释,从而提高医学AI模型的可理解性与临床可信度。
CAML的核心思想是将样本中的“疾病相关特征”与“个体背景特征”进行解耦,并在低维流形空间中表示全局决策规则。研究人员进一步结合拓扑数据分析与反事实生成技术,实现了AI决策路径的可视化、差异诊断规则的生成以及局部病灶区域的精准解释。大量实验表明,该方法不仅在解释准确性方面优于现有xAI方法,还能够自动挖掘训练过程中未显式提供的医学知识,为AI辅助医学知识发现提供了新方向。

近年来,人工智能特别是深度学习模型已经被广泛应用于医疗影像分析、疾病诊断以及临床决策支持等领域。医疗设备制造商也越来越多地使用AI系统来学习真实世界中的患者数据,以提升诊疗效率与患者护理质量。
然而,随着模型复杂度不断增加,尤其是深度神经网络的广泛使用,医学AI的“黑箱化”问题日益严重。研究发现,这些模型不仅可能学习到超出人类知识范围之外的潜在规则,还可能受到捷径学习(shortcut learning)、对抗攻击、偏见与不公平性等问题影响,从而带来技术和伦理风险。
因此,医学界和监管机构开始高度重视AI可解释性。欧盟、美国FDA等监管部门均强调,医疗AI系统必须能够提供“人类可理解”的决策逻辑。与此同时,越来越多研究人员尝试利用AI进行医学科学发现,但由于当前AI系统缺乏可理解的知识生成能力,其在科研中的应用仍受到限制。
现有xAI方法主要可分为全局解释与局部解释两类。全局方法试图用决策树、线性模型等“透明模型”概括整个模型逻辑,但往往牺牲预测准确率;局部方法则主要利用梯度、扰动或反事实样本分析单个病例,但缺乏统一全局视角,难以总结医学规则。研究人员指出,当前方法往往存在解释模糊、不稳定、带偏见甚至误导等问题,从而形成所谓“可解释性鸿沟”。
为了解决这一问题,研究人员提出,理想的医学AI解释框架应同时具备“全局规则总结能力”和“局部个体解释能力”。基于这一理念,他们构建了CAML框架,通过低维流形学习、拓扑分析以及反事实生成,实现对AI决策逻辑的统一表达与可视化。
方法
研究人员提出的CAML框架主要包括三个步骤。首先,通过类别关联嵌入(CAE)方法,将每个样本编码到两个独立子空间:一个用于表示疾病相关特征,另一个用于表示个体背景特征。该过程能够有效去除个体差异,并保留与分类任务相关的核心信息。
随后,研究人员利用拓扑数据分析(TDA)对低维类别关联流形进行建模,将不同类别之间的决策路径可视化。研究人员进一步计算流形中的测地路径,并利用生成模型在路径上连续生成反事实样本,从而动态展示疾病特征如何逐渐演化并导致分类结果改变。
最终,研究人员利用这一框架实现局部病灶解释、差异诊断规则可视化、亚群发现以及AI潜在偏差分析,从而帮助临床医生、监管人员和科研人员理解黑箱AI的决策逻辑。
结果
CAML构建统一的全局—局部解释框架
研究人员首先介绍了CAML整体架构。该框架通过CAE学习低维类别关联流形,并通过拓扑分析与反事实生成统一全局解释与局部解释。相比传统仅依赖显著性热图的方法,CAML能够直接展示疾病特征如何连续演化,并将AI决策规则映射为可视化路径。
研究人员强调,该方法不仅能够生成单个病例的解释,还能够构建整个模型的“决策地图”,使得研究人员能够遍历AI学习到的分类规则,并进一步分析模型中潜在的偏见或捷径学习现象。

图1: CAML整体框架与类别关联流形学习流程。
CAML能够在低维流形中保留高精度决策能力
研究人员随后验证了类别关联流形是否能够有效保留原始黑箱模型中的决策信息。实验在OCT、胸部X光、脑肿瘤、糖尿病视网膜病变等多个医学数据集上进行。
结果显示,即使仅使用8维低维流形表示,CAML依然能够接近原始ResNet50黑箱模型的分类性能,并显著优于TreeExplainer、SFA、逻辑回归以及概念瓶颈模型等传统解释方法。
研究人员进一步发现,训练集与测试集在低维流形中的分布高度一致,说明该流形不仅能够表示训练数据中的规则,还具备良好的泛化能力。

图2: 低维类别关联流形中的全局决策规则与分类性能比较。
CAML能够挖掘潜在医学知识与疾病演化规律
研究人员进一步利用拓扑分析探索类别关联流形中的隐藏结构。结果发现,即使训练过程中未提供亚型标签,CAML依然能够自动识别出符合医学知识的疾病亚群。
例如,在OCT数据中,模型自动学习到正常→DRUSEN→CNV的连续疾病演化路径,而DME则形成另一独立方向,符合真实病理机制。在糖尿病视网膜病变数据中,轻度、中度与重度病变在流形中沿连续路径排列。
研究人员还在29类眼底疾病数据集RFMID中发现,BRVO与CRVO在流形中彼此接近,而视盘水肿进一步连接于CRVO之后,这与真实临床病理关系高度一致。模型还自动发现糖尿病视网膜病变与视网膜炎之间的关联关系。

图3: 类别关联流形中的疾病演化路径与潜在医学知识发现。
CAML能够无监督学习医学概念知识
研究人员进一步分析了CAML学习到的概念表示能力。在Derm7pt皮肤病数据集以及MIMIC-CXR胸片数据集中,即使未提供概念标签监督,类别关联流形仍然能够自然分离出与病理概念相关的区域。
例如,在皮肤病数据中,点状结构、蓝白幕以及色素网络等病理特征会在流形中形成明显聚类;而在胸片数据中,肺充血、心脏扩大以及水肿等概念同样与疾病类别高度对应。
这表明CAML能够在没有概念监督的情况下学习医学概念知识,突破了传统概念瓶颈模型必须依赖人工标注概念的限制。

图4: 类别关联流形中的医学概念分布与疾病关系。
CAML实现更精准的局部病灶解释
除了全局解释之外,研究人员还系统比较了CAML与LIME、Grad-CAM、ICAM、DiffExplainer等九种主流xAI方法在局部显著性解释中的表现。
结果显示,CAML生成的ROI区域更加精准、边界更清晰,并且能够避免传统局部扰动方法受到背景噪声干扰的问题。研究人员进一步通过AOPC、PD、IOU和DICE等指标进行定量评估,发现CAML在所有测试数据集上均达到最佳性能。
特别是在脑肿瘤数据中,即使没有像素级标注,CAML仍能够实现高质量病灶定位。研究人员认为,这是由于全局流形规则与测地路径共同提升了解释稳定性。

图5: CAML与主流xAI方法在局部病灶解释中的比较。
临床专家盲测验证CAML解释结果的可信度
为了进一步验证临床可用性,研究人员邀请8位眼科医生对OCT数据结果进行三轮盲测评估。
在第一项实验中,医生对不同方法生成的反事实样本进行真实性评分。结果显示,CAML生成的图像在真实性与临床合理性方面显著优于ICAM、CBED与DiffExplainer,并最接近真实影像。
在第二项实验中,医生对不同方法生成的显著性热图进行排序,大多数医生均将CAML评为最佳。第三项实验则比较不同方法展示疾病差异诊断特征的能力,结果同样显示CAML生成的对比样本最符合临床判断逻辑。

图6: 临床专家对CAML解释结果的盲测评估。
CAML具有良好的鲁棒性与跨模态扩展能力
研究人员进一步测试了CAML在不平衡数据集、跨数据集迁移以及非图像数据中的表现。结果显示,在MIMIC-CXR和CheXpert等真实世界数据集中,CAML依然能够保持稳定性能,并在跨数据集测试中仅出现较小性能下降。
此外,研究人员还将CAML应用于心电图数据和乳腺癌基因表达数据。结果显示,模型能够自动发现与左束支传导阻滞、室性早搏等相关的典型波形特征,并识别出影响乳腺癌亚型的重要基因集合。

图7: CAML在ECG与基因表达数据中的跨模态应用。
CAML能够识别捷径学习与伪相关性
研究人员最后分析了CAML对捷径学习和伪相关性的响应能力。实验中,研究人员人为向数据中引入亮度偏差捷径,并重新训练分类模型。结果发现,CAML能够在流形中清晰暴露出模型利用亮度进行错误分类的路径。
同时,在真实胸片数据中,CAML能够有效区分真实病理特征与伪相关伪影,并避免在反事实生成过程中错误迁移这些噪声结构。研究人员认为,这说明CAML不仅能够提高可解释性,还可能成为发现模型偏差与隐藏风险的重要工具。

图8: CAML识别捷径学习与伪相关性的结果分析。
讨论
本研究提出了一种融合流形学习、拓扑分析与反事实生成的新型医学AI可解释框架CAML。与传统局部显著性方法不同,CAML能够同时构建全局决策地图与个体化解释,从而有效弥合医学AI中的“可解释性鸿沟”。
研究结果表明,CAML不仅在分类性能与解释准确率方面优于现有方法,还能够自动挖掘隐藏医学知识、发现疾病亚型关系并识别模型中的偏差与捷径学习行为。研究人员认为,这使得CAML不仅是一种解释工具,也可能成为AI辅助科学发现的重要平台。
此外,研究人员指出,目前方法仍存在一些局限,例如尚未实现基于自然语言的大规模临床解释生成,也尚未系统研究极端对抗样本条件下的行为。不过,未来若进一步结合多模态大语言模型,CAML有望实现“图像—概念—语言”一体化医学AI解释体系,从而推动可信医疗AI的发展。
整理 | DrugOne团队
参考资料
Xie, R., He, X., Jiang, L. et al. Bridging the interpretability gap for medical artificial intelligence models using class-association manifold learning. Nat. Biomed. Eng (2026).
https://doi.org/10.1038/s41551-026-01676-w