
DRUGONE
病理学是疾病诊断与治疗决策的核心环节,但传统诊断严重依赖显微镜观察,耗时且主观。深度学习虽在局部任务上取得显著进展,却仍受限于数据异质性与跨任务泛化不足。研究人员提出了TITAN,一种基于Transformer架构的多模态病理基础模型,可在全视野切片(Whole-Slide Image, WSI)上实现图像–文本语义对齐与跨任务迁移。TITAN在超过2100万张病理切片、26个器官系统、300余种疾病类型的数据上预训练,整合组织学图像与病理报告文本。模型能够统一表征组织形态、诊断语义与分子特征,在肿瘤分类、分级、分子标志物预测与预后分析中显著优于现有模型。TITAN展示了多模态基础模型在病理诊断与精准医疗中的巨大潜力。

病理诊断被视为“医学的最后裁决者”,从显微切片中识别组织结构、细胞形态与分子异常,是肿瘤、免疫及感染性疾病判断的关键。然而,传统人工判读受主观经验限制,且工作负荷极大。深度学习方法虽然已能在特定癌种中辅助诊断,但其泛化性和跨中心适应能力不足,尤其在多机构数据和未标注场景中表现不稳定。
基础模型(Foundation Model)理念为解决该问题提供了新方向:通过大规模自监督学习获取通用表征,再迁移至不同任务实现知识共享。然而在病理学领域,因数据来源、标注质量及模态差异(图像与文本)的限制,构建统一多模态模型极具挑战。
研究人员为此设计了 TITAN —— 一个基于 Transformer 的多模态病理图像–文本对齐网络,旨在让模型同时理解组织形态与病理语言,构建可泛化、可解释的病理智能系统。
方法概述
TITAN 采用两阶段训练架构:
多模态自监督预训练阶段
多任务微调阶段
TITAN利用全局–局部混合注意力机制实现从细胞特征到组织语义的多尺度融合,显著提升了模型对组织复杂结构的感知能力。

图1:TITAN 模型总体架构与多模态对齐流程
结果
多模态预训练的语义对齐能力
TITAN通过图像–文本自监督学习,形成了高度可解释的多层病理语义空间。
这些结果表明,TITAN不仅能捕捉视觉模式,还能理解组织形态背后的语义逻辑。

图2:图像–文本语义空间的可视化与对齐效果
肿瘤分类与分级性能
在多个公开病理数据集上,TITAN展现出优异的任务表现与泛化能力:
TITAN还能在数据分布差异较大的外部医院中保持稳定性能,显示出良好的跨域鲁棒性。

图3:分类与分级性能比较
分子标志物与突变预测
TITAN能从常规HE切片中精准推断关键分子状态:
热图可视化显示,TITAN聚焦于与分子变化相关的组织区域,如高核密度腺体、核异型性区和免疫浸润带,验证了模型在分子层面具有病理解释力。
临床预后与跨任务迁移
在多癌种生存预测任务中,TITAN通过冻结主干参数,仅微调输出层即可取得显著提升:
TITAN同时在报告生成、病例检索与特征聚类中表现出一致的语义连贯性,说明模型具备从诊断到报告生成的可迁移能力。

图4:分子预测与临床预后迁移分析
讨论
TITAN 的提出标志着病理AI从单任务模型迈向多模态基础模型阶段。
研究人员强调,TITAN 的优势在于:
TITAN 未来可作为病理AI的通用骨干网络,用于:
研究人员认为,TITAN 不仅推动了病理智能化的发展,也为多模态医学基础模型的跨领域应用奠定了范式基础。
整理 | DrugOne团队
参考资料
Ding, T., Wagner, S.J., Song, A.H. et al. A multimodal whole-slide foundation model for pathology. Nat Med (2025).
https://doi.org/10.1038/s41591-025-03982-3
内容为【DrugOne】公众号原创|转载请注明来源