专栏首页生信修炼手册关于GSEA的几点补充说明

关于GSEA的几点补充说明

欢迎关注”生信修炼手册”!

之前的文章中介绍了GSEA软件的使用和结果解读,但是有几点漏掉了,在本文中补充一下。首先是Leading Edge对应的3个统计量,示例如下

在富集结果的表格中,最后一列为LEADING EDGE, 在这一栏中,包含以下3个统计量

  1. tags
  2. list
  3. signal

对于一个基因集而言,定义其中对Enrichment score贡献最大的基因为核心基因,也称之为leading edge subset, 参考下图

对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。

tags表示核心基因占该基因集基因总数的比例,而list表示核心基因占所有基因总数的比例,signal利用这两个指标计算得到,公式如下

N代表所有基因的数目,Nh代表该基因集下的基因总数。对于一个基因集而言,当核心基因的数目和该基因集下的基因总数相同,signal取值最大,当该基因集的基因数目和所有基因数目接近时,signal的取值接近于0。

GSEA软件提供了Enrichment Map Visualization功能,自动调用cytoscape软件展示基因集富集结果,生成的图片示意如下

在该网络图中,两个基因集的基因存在overlap,则用线条连线,overlap基因的比例越越高,连线越宽。这张图和clusterProfiler中的emapplot函数残生的图片是一样的。

对于转录组数据分析而言,我们通常会采用DESeq2等软件进行差异分析,在差异分析的结果中已经给出了计算好的foldchange值,转录组的差异分析是非常复杂的,涉及到非常多的算法,比如归一化方法的选择,差异检验的统计模型等等,采用大家认可的差异分析软件,其结果更加的可靠。

GSEA软件默认的输入是基因表达量矩阵和样本分组,然后内置的进行归一化,进行差异分析,计算singal2noise等统计量,其本质就是自己进行了差异分析,计算出类似foldchange的统计值,其归一化算法是否适用于我们输入的表达量矩阵,在计算基因的foldchange值时有没有考虑生物学重复本身的变化程度,这些都导致其计算出的foldchange值并不能满足我们的需求,更加有效的做法是采用专用的差异分析软件计算出的foldchange值来进行富集分析。

GSEA的开发者也考虑到这个问题,所以提供了Run GSEAPreranked工具,支持直接导入事先排序好的基因列表,对应文件的后缀为rnk, 内容示意如下

第一列为基因ID,第二列为对应的foldchange值, #开头的行为注释,会自动忽略。通过这个工具,我们可以用DESeq2等差异分析专用工具算出来的foldchange值来进行富集分析。

这个工具相比默认的GSEA分析流程,有一个缺陷,它无法选择permutation test type, 在默认的流程中,提供了phenotypegene set两种参数供选择,默认值为phenotype, 而 GSEAPreranked工具只支持gene set

phenotype适用于生物学重复数目大于7个的情况,而gene set试用于生物学重复小于7个的情况。为了保证结果的可靠性,官方推荐条件允许的情况下尽可能使用phenotype, 因为这个参数用来评估基因集富集的pvalue值,可以有效控制结果的假阳性率。

GSEA的核心是Enrichment score的计算,除了GSEA软件外,还有很多的工具也都支持这个算法,如果想要利用DESeq2等工具自定义计算处的基因排序列表进行富集分析,更推荐使用clusterProfiler等第三方工具。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GSEA分析结果详细解读

    在解读传统的富集分析结果时,经常会有这样的疑问,一个富集到的通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样呢,是被抑制还是激活...

    生信修炼手册
  • 加权基因共表达网络,其实并没有那么神秘

    WGCNA是目前非常火热的一项研究内容,其全称为weighted correlation network analysis, 直译就是加权基因相关性网络分析。...

    生信修炼手册
  • GSEA软件使用方法简介

    Gene Set Enrichment Analysis是一种富集算法,由Broad Institute研究所的科学家提出,算法核心示意如下

    生信修炼手册
  • 这些基因的名字太有才了,研究一下都可以发10分文章

    2019/10/03 修改版:这篇刚发的时候,评论里有老师补充了3个fun gene names,这次添加在了文末的表格中。时间一直在走,一个月,六个月,十年,...

    生信宝典
  • 文献翻译:Statistical Approaches for Gene Selection, Hub Gene Identification and Module Interaction in...

    信息基因的选择是基因表达研究中的重要问题。基因表达数据的小样本量和大量基因特性使选择过程复杂化。此外,所选择的信息基因可以作为基因共表达网络分析的重要输入。此外...

    用户1359560
  • Cytoscape插件3:Enrichment Map(1)

    早期的基因列表解释依赖于选择一系列高得分的基因,然后建立相当主观奇怪的关系。富集分析是一个自动的,基于严格的统计学的方法来分析和解释很大的基因列表,使用的是先验...

    Y大宽
  • 核心基因筛选:基于EXCEL

    昨天我们介绍了利用STRING数据库来进行蛋白相互作用预测(STRING:蛋白相互作用数据库的使用),但是我们只是获得了相互作用网络分析的数据以及可以使用的相关...

    医学数据库百科
  • 只聚焦一个基因如何进行下一步研究?

    之前有小伙伴提问说,老板只给了一个基因让在胃癌当中研究。组内的测序数据也不让用,想要往下做一些和这个基因有关的基础实验,这个该怎么弄呢?

    科研菌
  • GSEA分析结果详细解读

    在解读传统的富集分析结果时,经常会有这样的疑问,一个富集到的通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样呢,是被抑制还是激活...

    生信修炼手册
  • (2)分子生物学专业名词

    1、原噬菌体(prophage):指的是某些温和噬菌体侵染细菌后,其核酸整合到宿主细菌染色体中。噬菌体所整合的核酸称为原噬菌体。它是繁殖和传递噬菌体本身遗传信息...

    生信real

扫码关注云+社区

领取腾讯云代金券