GSEA结果解读

1 Enrichment score(ES)

ES是GSEA最初的结果,反应全部杂交data排序后,在此序列top或bottom富集的程度。 ES原理:扫描排序序列,当出现一个功能集中的gene时,增加ES值,反之减少ES值,所以ES是个动态值。最终ES的确定是讲杂交数据排序序列所在位置定义为0,ES值定义为距离排序序列的最大偏差. ES为正,表示某一功能gene集富集在排序序列前方 ES为负,表示某一功能gene集富集在排序序列后方。 图中的最高点为此通路的ES值,中间表示杂交数据的排序序列。竖线表示此通路中出现的芯片数据集中的gene。

2 NES

由于ES是根据分析的数据集中的gene是否在一个功能gene set中出现来计算的,但各个功能gene set中包含的gene数目不同,且不同功能gene set与data之间的相关性也不同,因此,比较data set在不同功能gene set中的富集程度要对ES进行标准化处理,,也就是NES NES=某一功能gene set的ES/数据集所有随机组合得到的ES平均值 NES是主要的统计量。

3 FDR

NES确定后,判断其中可能包含的错误阳性发现率。FDR=25%意味着对此NES的确定,4次可能错 1次。GSEA结果中,高亮显示FDR<25%的富集set。因为从这些功能gene中最可能产生有意义的假设,促进进一步研究。大多数情况下,选FDR<25%是合适的,但是,假如分析的芯片data set较少,选择的是探针随机组合而不是表型组合,若p不严格,那么应该选FDR<5%。 一般而言,NES绝对值越大,FDR值就越小,说明富集程度高,结果可靠。

4 名义p值 nominal p-value

描述的是针对某一功能gene子集得到的富集得分的统计显著性,显然,p越小,富集性越好。

以上4个参数中,只有FDR进行了功能gene子集大小和多重假设检验矫正,而p值没有,因此,如果结果中有一个高度富集的功能gene子集,而其有很小的名义p-value和大的FDR意味着富集并不显著。

我的一个具体结果解读:

92/681 gene sets are upregulated in PH 0 gene sets are significantly enriched at FDR<25% 1 gene sets are significantly enriched at n p-value <1% 1 gene sets are significantly enriched at n p-value <5%

在选择的BP中,有681个gene sets,92个PH中上调,其中75%的正确率支持0条子集上调,1个BP的gene表达上调名义p值<0.01。总体结果并不理想。

备注

GSEA富集结果太少说明:

无gene set被富集。 可能是因为分析的样本太少,关注的生物信息太微弱,或正在分析的功能集不能很好代表你所关心的生物过程,但仍然可以看下top ranked gene sets,这些信息可能会为你的假说提供微弱的证据。当然也可以尝试考虑分析其他gene sets,或增加samples

GSEA富集结果太多说明:

太多的功能子集被富集了。 可能是因为很多的gene sets代表同一生物信号,这可以在gene sets中查看leading edge sbusets来查看。或者也可以查看具体区别进行加工,比如samples来自不同labs,操作者不一样等。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ml

2015编程之美(资格赛)--基站选址

题目3 : 基站选址 时间限制:2000ms 单点时限:1000ms 内存限制:256MB 描述 需要在一个N × M的网格中建立一个通讯基站,通讯基站仅必须建...

3315
来自专栏生信技能树

比较不同单细胞转录组数据寻找features方法

挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释。 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千...

81710
来自专栏小樱的经验随笔

BZOJ 1088: [SCOI2005]扫雷Mine【思维题,神奇的模拟+枚举】

1088: [SCOI2005]扫雷Mine Time Limit: 10 Sec  Memory Limit: 162 MB Submit: 3791  So...

2843
来自专栏生信技能树

叫一声lncRNA你敢答应么[男女不限]

lncRNA 的全称是long noncoding RNA。即又长又表达且还不能编码翻译成蛋白质的一类RNA。

2221
来自专栏生信技能树

dbSNFP数据库发展历程

2195
来自专栏生信技能树

如何通过Google来使用ggplot2可视化

今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

3328
来自专栏生信宝典

GSEA富集分析 - 界面操作

GSEA定义 Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋...

4008
来自专栏AI研习社

用金庸、古龙群侠名称训练 LSTM,会生成多么奇葩的名字?

AI 研习社按:本文转载自 Magicly 博客,获作者授权。阅读原文请见:http://magicly.me/2017/04/07/rnn-lstm-gene...

40111
来自专栏大数据挖掘DT机器学习

用pandas 进行投资分析

让我们进行一个常见的分析,您可能自己就可以完成这个分析。假设您想分析股票绩效,那么您可以: 在 Yahoo 金融专区找一支股票。 下载历史数据,保存为 CSV ...

3055
来自专栏刘妍的专栏

python 数据分析超简单入门 : 项目实践篇

适用于数据分析小白们, up 主也是小白一枚,项目来源于 up 主自学 udacity 中的一个项目实践,up 主自身能力不足,因此文章很浅显, 期待和大神们一...

3K2

扫码关注云+社区

领取腾讯云代金券