*仅供医学专业人士阅读参考
胰腺导管腺癌(PDAC)是一种具有高度侵袭性和高致死率的恶性消化道肿瘤,预后极差。早期诊断并提高手术可切除率是改善PDAC预后的一个重要措施。目前,腹部增强CT是PDAC筛查的首选影像学方法,但其诊断结果依赖放射科医生的肉眼判断,且不同医生之间存在一定差异,容易导致误诊漏诊。
近年来,人工智能(AI)凭借强大的数据处理和分析能力,在PDAC的诊断中显示出极大潜力。然而截至目前,尚无大规模研究比较AI模型与放射科医生通过CT诊断PDAC的能力。
近期,荷兰奈梅亨大学医学中心Natalia Alves团队就开展了一项国际、配对、非劣效性、验证性、观察性研究。他们先是通过grand-challenge.org算法平台,从46个国家、432名参与者提交的258个AI算法模型中,筛选并构建了一个新的AI诊断模型,随后在独立的队列(共1130例参与者,其中406例经病理学确诊为PDAC)中对其诊断性能进行了验证,并与来自12个国家、40个医学中心的68名放射科医生的诊断结果(从验证队列中随机挑选了391例)进行比较。
结果发现,AI模型通过CT诊断PDAC的能力要明显优于放射科医生(p=0.001),其曲线下面积(AUROC)可达到0.92,而放射科医生诊断PDAC的AUROC为0.88。此外,在相同敏感性和特异性的情况下,与放射科医生相比,AI模型能减少了26%的假阳性结果,多检出了38%的漏诊病例。
研究发表在《柳叶刀·肿瘤学》上[1]。
既往虽有用AI模型辅助PDAC诊断的研究,不过大多数研究都存在样本量小、AI模型算法不公开等问题,为了解决当前AI研究普遍存在的局限性,研究人员开展了一项国际、配对、非劣效性、验证性、观察性研究,目的是建立一个开放、透明、可重复的评估框架,系统比较AI模型与放射科医生通过CT诊断PDAC的能力。
研究一共分成了两部分,第一部分是AI模型的开放和训练,研究利用grand-challenge.org算法平台,从46个国家、432名参与者提交的258个AI算法模型中,筛选出了3个表现最优的模型,并将这3个模型进行整合,构建了一个新的AI诊断模型。所有AI模型都使用了美国和荷兰的2224名参与者的CT扫描图像进行训练,并在86例参与者中进行调优后,在一个来自荷兰、瑞典和挪威的五个不同医疗中心的1130名参与者(包含406例经病理学确诊为PDAC的患者)的独立队列中进行验证。
研究的另一部分是针对放射科医生诊断能力的评估,研究从12个国家的40个医疗中心中纳入了中位从业年限为9年且具有腹部CT阅片经验的68名放射科医生,并让他们对AI测试集中随机抽取的391名参与者的CT结果进行判读,其中144例为经组织病理学确认的PDAC患者。
结果显示,AI模型通过CT诊断PDAC的能力要明显优于放射科医生(p=0.001),其AUROC可达到0.92,敏感性为85.7%,特异性为83.5%,而放射科医生诊断PDAC的AUROC为0.88。
为了更贴近真实临床决策场景,研究还基于放射科医生提供的Likert评分(0–5级)定义了若干临床相关操作点(即在实际临床工作中,医生或AI模型做出阳性诊断的风险阈值)。在具有代表性的临床操作点,也就是Likert评分≥2即判断为阳性时,与放射科医生相比,AI模型能在保持相同敏感性和特异性的同时,减少26%的假阳性结果,多检出38%的漏诊病例。
总之,这项迄今为止最大规模的国际阅片者研究证实,基于多中心数据训练的AI模型在诊断PDAC方面的能力已超越普通放射科医生的平均水平,具备提升早期诊断能力、减少误诊漏诊、优化临床决策的潜力。
参考文献:
[1]Alves N, Schuurmans M, Rutkowski D, et al. Artificial intelligence and radiologists in pancreatic cancer detection using standard of care CT scans (PANORAMA): an international, paired, non-inferiority, confirmatory, observational study. Lancet Oncol. Published online November 20, 2025. doi:10.1016/S1470-2045(25)00567-4
本文作者丨张金旭