首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Cytoscape插件3:Enrichment Map(1)

早期的基因列表解释依赖于选择一系列高得分的基因,然后建立相当主观奇怪的关系。富集分析是一个自动的,基于严格的统计学的方法来分析和解释很大的基因列表,使用的是先验知识。富集分析来评估输入的基因列表在一个已知功能基因集的上调或下调情况。如果一个基因列表中的基因在这个已知功能集中出现的基因数目显著很多,这很可能预示这,这个生物学过程在作者研究的状况下扮演着重要角色。这个分析可以被其他已知的功能基因集重复,这个功能基因集可能数以千计。 过去几年中,有超过60种富集分析方法和工具出现。他们的主要区别在于 -(a)已知功能基因集的数据库不一样 -(b)用来评估富集的统计学方法不一样。 在接下来的几个部分,我们简要review 基因富集已经存在的几种方法,主要考虑到两个方法。 大多数的富集工具都是来自于GO解释,因为它们对大多数生物来说容易获取,并且覆盖的基因数很多,另外,还有其他一些功能基因集存在,除了GO也还有其他一些工具。功能基因集可以基于他们参与的代谢过程或信号通路来进行定义(比如KEGG,Reactome),也可以由基因表达谱调节的目标基因定义(比如mircoRNA,转录因子),也可以由蛋白质特征定义(比如结构域,染色体位置,与某种疾病的联系,刺激因子,或基因扰动等)。多个来源的功能基因集被一些像MSigDB或WhichGenes收集。不是所有的生物被功能基因集覆盖了,并且很多工具值支持特定的生物。 决定富集的统计学方法要么是基于阈值要么是基于全分布。基于阈值的方法需要用户输入排名靠前的不连续的基因列表,这需要设定一个基于统计学的基因得分阈值。基于超几何分布的Fisher‘s精确单尾检验是阐释这个问题的第一个方法,并且会继续成为这种类型最常使用的方法。这些方法对自然非连续分布列表很有用,但是当对连续的基因得分评判时就有缺点了。尤其,结果如果对阈值的选择不稳定,并且,以二进位的方式对待基因得分有很多信息确实(这里说的二进位指的是要么选中,要么不被选中)。另一方面,基于基因全分布的方法没有门槛threshold-free,因为他们检测基因集靠的是比较他们的得分分布vs背景分布。因为这个原因,他们经常被认为是优于threshold-dependent方法,尤其和一个连续的基因集得分。GSEA(Gene-Set Enrichment Analysis),它的基因排序rank源于差异表达或其他统计学,是最流行的技术之一,虽然也有其他的全分布检验模型被提出。

02

R语言绘制火山图_r语言画曲线图

提到差异火山图,相信很多同学肯定不陌生。因为形似火山(喷发),所以称为火山图。差异火山图最常见于转录组数据的分析中,在基因表达层面,用于展示两组间表达量上调和下调的基因。常规的火山图中主要包含了两个重要信息,差异表达倍数(Fold Change值,简称FC,作图时会对FC进行log转化,根据logFC值的正负判断这些基因的表达量是上调了还是下调了)以及统计学显著性p值(p-value,通常是FDR校正后的p值,根据校正后p值判断基因表达量上调或下调是否具有显著性)。因此在判断差异基因时,与常规的统计学方法相比,除了p值,通常还会考虑差异倍数,即结合这两个统计结果筛选表达量显著上调或下调的基因(一般而言,差异倍数不能太小)。

05

单细胞RNA-seq分析小鼠肺动脉高压内皮细胞

结果:小鼠特殊造模进行单细胞数据分析,并对不同内皮细胞进行细分得到相应的七个主要肺内皮亚型(动脉,静脉,毛细血管A,毛细血管B,淋巴管,增殖和“Sftp”) 。基于SCrna-seq和BulkRNA-seq两种分析得出抗原加工和呈递该通路中在肺高压造模小鼠的血管相关亚群细胞的特异性。后续确定毛细内皮B亚群对于细胞凋亡、迁移和血管生成基因有关也侧面证明了该亚群在肺高压疾病中的特殊性确定了一些特异性基因(Aqp1,Cav1,Bmpr2, Eng)并推断在人与大鼠中是否也具有特异性。进一步分析血管相关亚群探究确定了一个动静脉轴的差异变化确定了某些基因(Sgk1, Cd34, Sparc, Sparcl1)在疾病中对于动静脉轴的一个影响作用。

02

单细胞转录组揭示磷酸化相关基因在肝细胞癌干细胞中的作用

蛋白激酶和磷酸酶的异常激活与各种肿瘤发生有关,包括肝细胞癌 (HCC)。晚期 HCC 患者接受全身治疗,比如使用延长总生存期的酪氨酸激酶抑制剂。研究蛋白激酶信号传导的潜在机制将有助于提高 HCC 治疗的疗效。结合单细胞 RNA 测序数据和 TCGA RNA-seq 数据,分析了HCC 患者的蛋白激酶、磷酸酶和其他磷酸化相关基因 (PRG)。发现了主要在 HCC 癌症干细胞中检测到的 9 种高表达蛋白激酶和 PRG,包括POLR2G、PPP2R1A、POLR2L、PRC1、ITBG1BP1、MARCKSL1、EZH2、DTYMK和AURKA。TCGA 数据集的生存分析表明,这些基因与 HCC 患者的不良预后相关。进一步的相关性分析表明,这些基因参与了可能导致 HCC 发展的细胞周期相关途径。其中,AURKA和EZH2被 Ingenuity Pathway Analysis 确定为两个枢纽基因。AURKA 抑制剂 (alisertib) 和 EZH2 抑制剂 (gambogenic) 治疗可抑制 HCC 细胞增殖、迁移和侵袭。还发现AURKA和EZH2在TP53-突变的HCC样本中均高表达。

04

转录组差异分析这样做能行吗?

前段时间,我们分享了转录组三种常见差异分析的推文以及单样本1V1进行差异分析的推文。对单个样本进行差异分析时,我们能获得相应的差异基因。在转录组三种常见差异分析的推文中,我们利用取交集的方式看了下三种方法获得共同差异基因的交集情况。曾老师提出了一个有趣的猜想,试想如果我们将3V3的样本拆分成3次1V1进行差异分析,是否会出现什么有趣的现象呢。为了让结果可比,我们就用上次的数据集GSE190114吧。此次,我们除了关注3次1V1差异分析上调与下调差异基因分别共同的交集情况之外,还将关注3种常见分析方法的上调与下调差异基因分别与拆分成3次1V1差异分析的上调与下调差异基因的共同交集情况,「用于探究是否能够拆分成3次1V1后进行差异分析」。话不多说,由于此次所使用的数据与上次一样,对此次的探究描述与数据集介绍感兴趣的小伙伴,请移驾至三种转录组差异分析方法及区别你会了吗?。

01
领券