今天给大家带来的是3分+学习笔记。文末阅读原文可获取笔记原文。
这篇通过相似性网络融合(SNF)和一致性聚类(CC)划分整合多组学数据对软组织肉瘤(STS)进行聚类。并筛选预后不良和预后良好亚群之间差异表达的lncRNAs、miRNAs和mrna,以此构建ceRNA网络进行分析。
题目:综合性聚类揭示一种预后不良的软组织肉瘤新亚型
软组织肉瘤(STS)是一组恶性肿瘤。目前大多数的STS临床研究都是基于一种或几种特定的组织学类型,而由于STS罕见且组织学亚型太多(目前约有50种),所以患者数量有限,临床试验进展缓慢。采用基于基因组学的基因分型方法,将具有相似基因组特征的肿瘤归入同一类别,从而建立新的分类系统。这有利于分子靶点的筛选和未来临床试验的开展,有助于开发更合理、特异和有效的治疗方法。
从TCGA数据库中下载STS的RNASeq、miRNAseq、体细胞突变数据和患者的临床信息(表1),共247例。
表1 训练组患者的临床信息
使用Cancer Subtypes包中的 "ExecuteSNF.CC "函数对样本进行聚类。该函数联合使用相似性网络融合(SNF)和一致性聚类(CC)的方法整合多组学数据进行聚类。
通过累计分布函数曲线下面积相对变化量来确定最佳聚类数。当聚类数(k)为3时,面积变化最大(图1A),因此STS被确定聚为3个类。图1C用热图展现了样本距离。结果显示,聚类内的样本彼此接近,而不同聚类之间的样本彼此相距较远。
还使用轮廓宽度(Silhouette Width)来判断聚类效果。轮廓宽度结合了内聚度和分离度两种因素进行判断,其取值范围为[-1,1]。将所有点的轮廓宽度求平均,就是该聚类结果总的轮廓宽度。取值越接近1则说明聚类效果越好;相反,取值越接近-1则说明聚类效果越差。图1B结果表明,每个聚类的轮廓宽度和总轮廓宽度都接近1,聚类效果良好。
图1 对STS进行聚类
为了比较聚类到的亚群与组织学亚型的关系,统计了每个亚群中组织学亚型的分布情况(图2A):
图2A 聚类到的三个亚群中肿瘤组织学亚型的分布
以聚类结果分组进行生存分析,结果显示,C2患者总体生存率显著低于C1和C3患者(P = 0.02)(图2B)。但考虑到不同聚类中患者组织学亚型的构成不同(C3主要为LMS亚型),为了验证总体生存期差异是由不同聚类而不是组织学亚型引起的,进一步针对C2和C3中的LMS亚型患者进行了生存分析。结果表明,C2中LMS患者的总体生存率显著低于C3中的LMS患者(P = 0.0015)(图2C)。
图2A 聚类到的三个亚群生存分析结果
接下来将每个聚类分组分别对其它两个聚类分组进行差异表达分析( |log2 (FC)| > 2.0 , P < 0.01)。每个聚类的两次差异表达分析中均高表达的基因被定义为亚群特异性基因。并将两次差异表达分析中FC之和最大的基因定义为亚群的标记基因(图3),分别是:
以往研究表明,TP53和RB1是STS中最常见的突变基因,利用卡方检验分析比较这两个基因的突变率在不同亚群之间的差异。结果表明,TP53和RB1在C1(TP53:17.0%,RB1:4.0%)和C3(TP53:15.0%,RB1:6.9%)的突变率显著高于在C2(TP53:2.0%,RB1:0.0%)中的突变率(P<0.05)。
图3 每个亚群中表达差异最大的lncRNAs、mRNAs、miRNAs和基因突变的热图
上一步分析中可知C2患者预后差,但这并不是由抑癌基因TP53和RB1的突变所驱动的。尝试基于C2和C1&C3之间差异表达基因(lncRNAs、miRNAs和mRNAs),利用GDCRNATools包构建ceRNA网络。为了深入了解ceRNA网络的功能,还进行了GO富集分析。这样就可能有助于了解C2的生物学特征。
图4 构建的ceRNA调控网络
图5 ceRNA的GO富集分析结果
接下来筛选hub ceRNA调控网络。对上一步构建的ceRNA网络的每个节点进行Cox回归分析,并以每个节点的中位表达水平将样本分为两组生存分析。如果一个竞争基因对(lncRNA-miRNA-mRNA)的所有成分都都有显著的生存差异(Cox P值<0.05,logRank P值<0.05),则选择该基因对作为hub ceRNA网络的一部分。
图6 hub ceRNA调控网络
随后进一步研究hub ceRNA调控网络中的这6个基因:
图7 hub ceRNA调控网络特点
小结
从TCGA数据库中获取STSs的RNAseq和miRNAseq数据,通过相似性网络融合(SNF)和一致性聚类(CC)划分整合多组学数据对样本进行聚类,划分成了三个亚群。分析各个亚群临床特点,进行生存分析,找到预后较差的亚群。进行突变分析,发现预后较差的亚群抑癌基因突变反而低,说明预后差并非由抑癌基因突变导致。随后筛选预后不良和预后良好亚群之间差异表达的lncRNAs、miRNAs和mrna,并构建ceRNA网络。进行了功能富集分析,并从构建的ceRNA网络中提取了一个hub网络。hub网络中的基因可以为未来STS的诊治提供参考靶点。