首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Med. | 多模态病理全视野基础模型

Nat. Med. | 多模态病理全视野基础模型

作者头像
DrugOne
发布2025-11-17 21:04:22
发布2025-11-17 21:04:22
980
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

病理学是疾病诊断与治疗决策的核心环节,但传统诊断严重依赖显微镜观察,耗时且主观。深度学习虽在局部任务上取得显著进展,却仍受限于数据异质性与跨任务泛化不足。研究人员提出了TITAN,一种基于Transformer架构的多模态病理基础模型,可在全视野切片(Whole-Slide Image, WSI)上实现图像–文本语义对齐与跨任务迁移。TITAN在超过2100万张病理切片、26个器官系统、300余种疾病类型的数据上预训练,整合组织学图像与病理报告文本。模型能够统一表征组织形态、诊断语义与分子特征,在肿瘤分类、分级、分子标志物预测与预后分析中显著优于现有模型。TITAN展示了多模态基础模型在病理诊断与精准医疗中的巨大潜力。

病理诊断被视为“医学的最后裁决者”,从显微切片中识别组织结构、细胞形态与分子异常,是肿瘤、免疫及感染性疾病判断的关键。然而,传统人工判读受主观经验限制,且工作负荷极大。深度学习方法虽然已能在特定癌种中辅助诊断,但其泛化性和跨中心适应能力不足,尤其在多机构数据和未标注场景中表现不稳定。

基础模型(Foundation Model)理念为解决该问题提供了新方向:通过大规模自监督学习获取通用表征,再迁移至不同任务实现知识共享。然而在病理学领域,因数据来源、标注质量及模态差异(图像与文本)的限制,构建统一多模态模型极具挑战。

研究人员为此设计了 TITAN —— 一个基于 Transformer 的多模态病理图像–文本对齐网络,旨在让模型同时理解组织形态与病理语言,构建可泛化、可解释的病理智能系统。

方法概述

TITAN 采用两阶段训练架构:

多模态自监督预训练阶段

  • 收集超过2100万张WSI,涵盖26个器官系统与300余种疾病类型。
  • 每张切片与对应病理报告文本配对,进行跨模态对比学习。
  • 图像编码器基于分层Vision Transformer(ViT),通过patch分块与注意力聚合捕获显微结构;
  • 文本编码器采用医学语料预训练语言模型(如Bio-LLaMA)。
  • 模型通过Transformer交互模块学习图像–文本的语义对齐,实现病理形态与语言描述间的统一表征。

多任务微调阶段

  • 在肿瘤类型分类、分级、分子状态预测和生存分析任务上微调;
  • 采用跨机构验证评估泛化性能与稳定性。

TITAN利用全局–局部混合注意力机制实现从细胞特征到组织语义的多尺度融合,显著提升了模型对组织复杂结构的感知能力。

图1:TITAN 模型总体架构与多模态对齐流程

结果

多模态预训练的语义对齐能力

TITAN通过图像–文本自监督学习,形成了高度可解释的多层病理语义空间。

  • 模型在t-SNE特征空间中自动聚类出不同组织类型,如腺体、间质、坏死、炎症区域等。
  • 在文本–图像匹配任务中,模型能准确对应如“浸润性腺癌”、“核异型显著”、“淋巴细胞浸润”等描述。
  • 相比纯视觉模型,TITAN在跨模态检索任务上召回率提升约30%。

这些结果表明,TITAN不仅能捕捉视觉模式,还能理解组织形态背后的语义逻辑。

图2:图像–文本语义空间的可视化与对齐效果

肿瘤分类与分级性能

在多个公开病理数据集上,TITAN展现出优异的任务表现与泛化能力:

  • 癌症分类(TCGA 14类):平均准确率94.8%,较ConvNeXt-L、CLIP-PATH提高7%以上;
  • 乳腺癌分级(Camelyon16, BACH):AUC高达0.988;
  • 前列腺癌Gleason分级:在外部验证集上AUC为0.965,显著超越现有模型。

TITAN还能在数据分布差异较大的外部医院中保持稳定性能,显示出良好的跨域鲁棒性。

图3:分类与分级性能比较

分子标志物与突变预测

TITAN能从常规HE切片中精准推断关键分子状态:

  • 乳腺癌HER2与ER状态预测:AUC分别为0.94与0.91;
  • 结直肠癌MSI状态预测:AUC 0.95;
  • 肺癌EGFR突变预测:AUC 0.89。

热图可视化显示,TITAN聚焦于与分子变化相关的组织区域,如高核密度腺体、核异型性区和免疫浸润带,验证了模型在分子层面具有病理解释力。

临床预后与跨任务迁移

在多癌种生存预测任务中,TITAN通过冻结主干参数,仅微调输出层即可取得显著提升:

  • 胰腺癌C-index提升至0.74,肝癌达0.76;
  • 零样本任务(如罕见肿瘤)中,TITAN可通过语义检索生成合理诊断推断。

TITAN同时在报告生成、病例检索与特征聚类中表现出一致的语义连贯性,说明模型具备从诊断到报告生成的可迁移能力。

图4:分子预测与临床预后迁移分析

讨论

TITAN 的提出标志着病理AI从单任务模型迈向多模态基础模型阶段。

研究人员强调,TITAN 的优势在于:

  • 统一多模态学习框架 —— 将组织视觉信息与诊断语言融合于同一语义空间;
  • 高可解释性特征表示 —— 注意力机制对应真实病理区域,与医生判读逻辑一致;
  • 卓越的迁移与泛化能力 —— 在不同机构与疾病上无需重新训练即可获得稳定表现。

TITAN 未来可作为病理AI的通用骨干网络,用于:

  • 结合放射影像、空间转录组和基因表达实现多层次病理–分子映射;
  • 支撑临床诊断报告自动生成与辅助决策;
  • 促进多中心病理数据的模型共享与标准化。

研究人员认为,TITAN 不仅推动了病理智能化的发展,也为多模态医学基础模型的跨领域应用奠定了范式基础。

整理 | DrugOne团队

参考资料

Ding, T., Wagner, S.J., Song, A.H. et al. A multimodal whole-slide foundation model for pathology. Nat Med (2025).

https://doi.org/10.1038/s41591-025-03982-3

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档