首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | AI读懂病理切片:HESpotEx实现空间基因表达精准预测

Nat. Comput. Sci. | AI读懂病理切片:HESpotEx实现空间基因表达精准预测

作者头像
DrugAI
发布2026-05-20 10:13:18
发布2026-05-20 10:13:18
1200
举报

DRUGONE

空间转录组技术(spatial transcriptomics, ST)能够揭示组织内部基因表达的空间分布,但其高昂成本严重限制了大规模应用。相比之下,H&E染色的全切片病理图像(whole-slide images, WSIs)已广泛应用于临床诊断,并具有低成本、高通量优势。因此,如何仅利用病理图像预测空间基因表达,成为数字病理与空间组学交叉领域的重要研究方向。

该研究提出了HESpotEx,一个用于spot级空间基因表达预测的双流深度学习框架。HESpotEx结合图注意力自编码器(GATE)、预训练病理图像编码器Quilt-Net以及图卷积网络(GCN)解码器,实现了从H&E图像直接预测空间转录组。模型最多可同时预测5,457个基因在单个空间spot中的表达模式。

研究结果显示,HESpotEx在多种癌症与非癌症ST数据集上均优于现有主流方法,包括TCGN、Hist2ST、THItoGene、BLEEP和mclSTExp等。同时,HESpotEx在TCGA大规模乳腺癌数据集上也展现出优异泛化能力,并能够识别与肿瘤分化、免疫浸润和患者预后相关的空间表达特征。此外,在高分辨率Xenium与Visium HD数据集上,HESpotEx依然保持较高预测一致性。研究表明,该框架有望成为连接数字病理与空间分子特征的重要工具。

长期以来,H&E染色病理切片一直是疾病诊断、病理分型和预后评估的核心工具。病理图像能够反映组织结构、细胞形态以及肿瘤微环境等重要信息,但其本质上仍然是一种“形态学观察”。相比之下,基因表达谱能够更深入地揭示组织背后的分子活动。

传统RNA测序只能提供整体组织层面的平均表达信息,无法解析组织内部空间异质性。近年来,10x Visium、Xenium等空间转录组技术的出现,使研究人员能够同时获得组织图像与空间基因表达,从而建立病理结构与分子状态之间的对应关系。

然而,ST技术成本通常高达数千美元每个样本,难以广泛用于临床。因此,研究人员希望通过深度学习直接从病理图像推断空间表达模式,实现“虚拟空间转录组”。

此前已经出现多种相关方法,例如Hist2ST、THItoGene、TCGN和IGI-DL等。这些模型尝试结合卷积网络、Transformer和图神经网络提取空间信息。但研究人员指出,现有方法仍存在几个关键问题:首先,图像特征与基因表达特征之间缺乏明确对齐机制;其次,大多数模型直接在小规模ST数据上训练,容易过拟合;此外,Transformer结构在ST小样本场景下并不总是最优。

因此,该研究提出HESpotEx,希望利用预训练病理基础模型与双流嵌入结构,更有效地建立病理图像与空间基因表达之间的映射关系。

方法

HESpotEx采用两阶段训练策略。第一阶段中,研究人员利用图注意力自编码器(GATE)对ST表达矩阵进行编码,将spot表达谱映射为低维spot embedding。与此同时,H&E图像被切分为围绕每个spot的图像patch,并利用预训练病理模型Quilt-Net提取patch embedding。随后,研究人员通过Pearson correlation coefficient(PCC)损失函数,将图像embedding与表达embedding对齐至共享低维空间。

第二阶段中,模型利用GCN解码器聚合邻近patch特征,预测spot级基因表达。为缓解邻域噪声,研究人员借鉴ResNet残差结构,将MLP输出与GCN输出相加。同时,模型还引入基于细胞核数量的后处理步骤,因为研究人员认为,一个spot中细胞越多,其总体表达水平通常越高。

研究人员在HER2+乳腺癌、皮肤鳞癌、非癌性炎症皮肤病、TCGA-BRCA以及高分辨率Xenium等多个数据集上,对HESpotEx进行了系统评估,并与7种主流方法进行比较。

图1:HESpotEx整体框架,包括双流嵌入、GCN解码器与空间基因表达预测流程。

结果

HESpotEx在乳腺癌与皮肤癌ST数据集上显著优于现有方法

研究人员首先在HER2+乳腺癌和皮肤鳞状细胞癌(cSCC)空间转录组数据集上评估HESpotEx。结果显示,HESpotEx在几乎所有组织切片中均获得最高Pearson相关系数(PCC)以及最低KL divergence和MSE。

在HER2+数据集中,HESpotEx不仅整体性能领先,还在低表达基因预测方面表现更稳定。相比Hist2ST、BLEEP和THItoGene等模型,HESpotEx能够更准确重建真实空间表达分布。

在外部乳腺癌验证集上,HESpotEx预测3,964个共享基因时,平均PCC达到0.24,比第二名IGI-DL高出140%。对于33个乳腺癌核心驱动基因,HESpotEx进一步提升至PCC 0.289。

研究人员还利用Celloc将预测结果与单细胞RNA测序参考数据关联,发现HESpotEx预测的表达模式能够有效恢复不同细胞类型与恶性状态的空间分布。

图2:HESpotEx与其他模型在HER2+和cSCC数据集上的性能比较。

双流结构与预训练病理模型是性能提升关键

为了分析性能来源,研究人员进行了系统消融实验。结果显示,双流embedding结构是HESpotEx性能提升的重要原因。相比仅使用图像编码器,加入spot embedding对齐后,模型预测能力明显增强。

此外,基于细胞核数量的后处理步骤也显著提高了预测精度。研究人员认为,这一步帮助模型校正了局部细胞密度带来的表达偏差。

在图像编码器比较中,Quilt-Net表现明显优于UNI、CONCH、Phikon和CTransPath等其他预训练病理模型。研究人员认为,Quilt-Net的大规模病理图文预训练,使其更适合提取组织结构相关特征。

同时,研究人员发现,额外加入ComBat或Harmony批次效应校正并未带来性能提升。这说明HESpotEx本身已经具有较强鲁棒性。

图3:HESpotEx消融实验,包括双流结构、Quilt-Net与GCN模块比较。

HESpotEx能够准确恢复非癌症炎症疾病的空间表达模式

此前大多数空间表达预测模型主要关注癌症数据,而该研究进一步测试了HESpotEx在非癌性炎症皮肤病(ncISDs)中的表现,包括特应性皮炎(AD)、扁平苔藓(LP)和银屑病。

结果显示,HESpotEx在这些疾病中的表现同样优于其他模型。尤其对于已知疾病相关基因,HESpotEx能够准确恢复其空间表达模式。

例如,在AD中,HESpotEx成功预测OVOL1在病变区域中的高表达;在LP中,模型准确重建IL16的局部聚集模式;在银屑病中,OAS1表达区域也与真实病理区域高度一致。

相比之下,部分其他模型甚至出现负相关预测结果。这说明HESpotEx更擅长捕获真实病理结构与炎症相关分子特征之间的联系。

图4:HESpotEx在AD、LP和银屑病中的空间表达预测结果。

HESpotEx预测结果能够恢复患者预后相关分子特征

研究人员随后在TCGA-BRCA数据集上测试模型泛化能力。该数据集包含1,042例乳腺癌病理图像以及bulk RNA-seq数据。

结果显示,HESpotEx在1,889个共享基因上的平均PCC达到0.498,而第二名方法仅为0.088。即使在HER2+亚型中,HESpotEx仍保持明显优势。

更重要的是,仅利用HESpotEx预测的表达谱进行无监督聚类,就能够将HER2+患者划分为两个预后显著不同的亚群。Kaplan–Meier分析显示,两组患者整体生存率存在显著差异。

这说明,HESpotEx预测结果不仅具有统计学意义,还真正捕获了与患者生物学行为相关的重要分子特征。

图5:TCGA-BRCA预测结果与HER2+患者预后分层分析。

HESpotEx能够识别肿瘤分化与免疫浸润相关空间模式

研究人员进一步将HESpotEx应用于624张院内cSCC病理切片,包括原位癌、高分化、中分化和低分化肿瘤。

通过对patch表达谱进行无监督聚类,研究人员发现不同cluster明显对应不同肿瘤分化状态。例如,某些cluster与低分化鳞癌区域高度一致,而另一些则对应正常鳞状上皮。

此外,HESpotEx预测的NOTCH1表达模式也与肿瘤分化区域高度相关。同时,模型识别出的cluster 6与淋巴细胞浸润区域高度重叠。HoVer-Net细胞分割进一步验证了这一点。

这些结果说明,HESpotEx不仅能够恢复基因表达,还能够解析肿瘤微环境与组织异质性。

HESpotEx在高分辨率空间转录组平台上仍保持优势

最后,研究人员在高分辨率Xenium和Visium HD数据集上测试模型。由于这些平台接近单细胞分辨率,因此更加考验模型的空间解析能力。

结果显示,HESpotEx在PCC和MSE指标上依然优于iStar、scstGCN等高分辨率方法。特别是在CRC Xenium数据集中,HESpotEx能够准确恢复免疫相关基因MMP2的空间分布。

研究人员还在小鼠小肠Visium HD数据集上验证了这一结果,进一步证明HESpotEx具有良好的高分辨率适应能力。

图6:HESpotEx在Xenium和Visium HD高分辨率数据集上的预测表现。

讨论

该研究提出了HESpotEx,一个结合病理基础模型与双流深度学习结构的空间表达预测框架。相比此前方法,HESpotEx最大的特点在于:不仅利用图像特征本身,还显式对齐图像embedding与空间表达embedding,从而增强病理形态与分子特征之间的一致性。

研究结果显示,预训练病理基础模型对于提升泛化能力具有关键作用。相比直接在小规模ST数据上训练图像编码器,Quilt-Net能够提供更稳定、更通用的组织表示。

与此同时,HESpotEx还展示出对肿瘤异质性、免疫浸润和患者预后的解析能力。这意味着未来“虚拟空间转录组”不仅能够降低实验成本,还可能直接成为病理辅助诊断的重要组成部分。

不过,研究人员也指出,目前HESpotEx仍存在一些限制。例如,模型更擅长预测与组织结构强相关的基因,而对于低表达或缺乏空间模式的基因,预测能力仍然有限。此外,模型仍然依赖较大规模训练数据,而高质量ST配对病理图像目前仍然稀缺。

总体而言,该研究推动了数字病理从“形态学观察”向“空间分子解析”转变。研究人员认为,随着更多高质量空间组学数据积累,未来AI模型有望直接从常规病理切片中重建组织内部的完整分子生态系统。

整理 | DrugOne团队

参考资料

Yin, W., Peng, Q., Meng, F. et al. HESpotEx: a dual-stream deep learning framework for spot-level gene expression prediction from histological images. Nat Comput Sci (2026).

https://doi.org/10.1038/s43588-026-00992-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档