前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Nature Methods] SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因

[Nature Methods] SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因

作者头像
智能生信
发布2022-12-29 17:25:40
1K0
发布2022-12-29 17:25:40
举报
文章被收录于专栏:智能生信智能生信

作者 | 冯玖鑫 编辑 | 赵晏浠

今天为大家解读一篇发布于Nature Methods的论文 SpaGCN: Integrating gene expression, spatial location and histology to identify spatial domains and spatially variable genes by graph convolutional network。近些年来,空间转录组学发展迅速。随着空间分辨转录组学(SRT)技术的发展,探究组织微环境背景下的基因表达模式成为可能。为了探究空间基因表达的模式,作者提出了SpaGCN,这是一种图形卷积网络方法,该方法将基因表达、组织空间位置和组织学图像相结合。通过图卷积从相邻点的位置聚集每个位点的基因表达,从而能够识别出具有一致表达和组织学的空间域。随后进行结构域差异表达(DE)分析,检测在已识别出的结构域中表达量大的基因。利用该模型对7个SRT数据集进行分析,该模型可以比之前的方法检测到具有更丰富的空间表达模式的基因。此外,SpaGCN检测到的基因表达模式是可迁移的,可用于研究其他数据集中基因表达的空间变异。并且SpaGCN具有计算速度快,平台独立等优点,使其成为各种SRT研究的理想工具。

一、研究背景

了解组织中不同细胞的相对位置对于理解疾病病理学至关重要,因为空间信息有助于理解细胞的基因表达是如何受到其周围环境的影响的。SRT技术的进步使组织中空间信息的基因表达谱成为可能。常用的SRT实验方法大致可分为两类。第一类是原位杂交或基于单细胞分辨率的测序技术,其中包括 seqFISH, seqFISH+等,它测量了细胞中成百到数千个基因的表达水平。第二类是基于原位捕获的技术,包括空间条形码和测序,第二类是基于原位捕获的技术,包括空间条形码和测序,其中包括空间转录组学(ST),SLIDE-seq等。这些不同的SRT技术使揭示异质组织的复杂转录结构成为可能,并增强了我们对疾病中的细胞机制的理解。

二、模型与方法

SpaGCN首先使用图卷积网络(GCN)整合基因表达、空间位置和组织学信息,然后使用无监督迭代聚类将spot聚类成不同的空间域。GCN基于一个无向加权图,其中每两个点之间的边权值由两个点之间的欧氏距离决定,由空间坐标(x,y)和三维坐标z定义,z从组织学图像中的RGB值获得。对于每个检测到的空间域,SpaGCN通过域引导的结构域差异表达分析来识别空间可变基因或元基因。

模型以位点的位置信息、组织的图像信息以及位点的表达信息为输入,经过预处理后,SpaGCN将基因表达和组织学图像数据转换为加权无向图G(V,E),其中计算两个位点之间的距离是最重要的,图中任意两个顶点u和v之间的距离反映了两个对应点的相对相似性。这个距离由两个因素决定:(1)u和v斑点在组织切片中的物理位置,(2)这两个斑点对应的组织学信息,第二点因素的使用逻辑是基于虽然有些点在物理上彼此很接近在组织中,但是组织学图像显示它们属于不同的组织层。其次,要对每条边的权重进行重新计算以及完成图的构造。对每条边的权重重新计算基于一个缩放因子l,l也被称为特征长度尺度,决定了权重作为距离的函数而衰减的速度。

并按照如下公式进行计算。

数据经过预处理之后被输入到图卷积层中,SpaGCN利用主成分分析(PCA)降低了预处理后的基因表达矩阵的维数。并使用使用50个主成分作为输入,接下来,利用SpaGCN的图卷积网络的能力,将G中的基因表达信息和边权值连接起来,进行节点聚类。图的卷积层可以写成:

其中X为从PCA得到的N×50嵌入矩阵,B为表示卷积层滤波器的50×50滤波器参数,delta为非线性激活函数,如ReLU。B中的滤波器参数在图中的所有顶点上共享,并在迭代训练过程中自动更新。通过图卷积,SpaGCN根据G中规定的边权值对基因表达信息进行了聚合。卷基层输出是一个聚合矩阵,包括基因表达、空间位置和组织学的信息。

得到卷积层的输出之后,采用聚类的方法进行空间域识别,基于上述图卷积层的输出,SpaGCN采用无监督聚类算法迭代地将位点聚类到不同的空间域,其中如果组织中的结构域的数量已知,则将louvain聚类算法中的分辨率参数设置为生成相同数量的空间结构域。否则,我们将分辨率参数从0.2改变到1.0,并选择给剪影得分最高的分辨率。

完成聚类之后再经过支持向量机的检测、空间可变元基因的检测、使用Moran的I和Geary的C统计数据来评估svg等方式检验模型的效果以及可迁移性等性能。

图1 SpaGCN方法的模型图

三、总结

为了展示SpaGCN的强度,作者将其应用于7个公开可获得的数据集(补充表由SpaGCN识别的空间域与已知的组织结构比louvain、统计学习和贝叶斯算法的一致性更好。作者还将 SpaGCN检测到的SVGs与SpatialDE和SPARK检测到的SVGs进行了比较,发现SpaGCN检测到的SVGs比其他两种方法具有更一致的表达模式和更好的生物学解释性。

图2 在人类原发性胰腺癌组织数据中检测到的空间域和svg

图3 a.生物学研究中151673片切片的组织学和人工注释的层结构以及使用louvain、stLearn、贝叶斯空间和SpaGCN计算得出的空间域。b.SpaGCN(n=12)、stLearn(n=12)和贝叶斯空间(n=12)的所有12个组织切片的聚类ARIs的箱线图。c.用SpaGCN(n=65)、SPARK (n=3,187) and SpatialDE (n=3,654)检测到的Moran的I和 Geary的C值的箱线图。e.手工标注层之间的ARIs和使用不同方法检测到的不同数量的svg的K-means聚类。对于SpaGCN,我们使用了67个SVGs,而对于 SPARK和SpatialDE,我们使用了它们的前67、100、200、500和所有fdr调整后的P值或Q值相同的SVGs。f.手工标注生物学研究中第151507片的层结构。使用SpaGCN检测到的67个SVGs,以及SPARK检测到的SpatialDE检测到的相同的第151507切片的K-means聚类结果。g.SpaGCN在切片151673中检测到的Meta基因可迁移到不同大脑的切片151507中。

图4 a.由louvain、stLearn、BayesSpace和SpaGCN检测到的组织切片和空间域的组织学图像。b.由louvain、stLearn、bayes空间和SpaGCN检测到的皮层区域的空间子域。c,Allen脑研究所小鼠皮层参考图谱图和SpaGCN的子域手工注释。d,SpaGCN( n=815)、spark(n=9678)和空间(DE(n=12676)检测到的MoranI和GearyC值的箱线图。e,SpaGCN检测到的结构域1(PVALB)、5(NRGN)和8(TRIM62)的SVGs的空间表达模式。f,形成结构域0(KLK6+MBP-ATP1B1)元基因的基因KLK6、MBP、ATP1B1的空间表达模式。


参考文献

https://www.nature.com/articles/s41592-021-01255-8

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档