GSEA入门------原理

  最近听了一个生信的live收获很大,其中大神有讲到GSEA图的介绍,很受启发,觉得可以抽点时间我们来好好看一看GSEA到底是什么,我们来了解一下其原理。 -------------------------------------------------------分割线-----------------------------------------------------------

  举个简单的例子,我们有一个肿瘤药物敏感组vs不敏感对照组。我们可以拿到它的表达谱,我们可以根据差异表达的基因得到一个基因列表L(gene list)。重点是我们从这个差异的基因列表中能得到什么生物学信息?

1: 拿到这个基因列表L,你会怎么处理呢?   

  按照一般的分析套路来说,我们肯定会关注top的基因,看看表达倍数差异大的基因(上调或者是下调的top基因),然后拿到这些基因进行分析(通路富集分析,画热图等等)。 (PS:做过GO,KEGG通路富集分析最后得到的结果就是会关注top的基因以及通路,但是如果表达差异不显著但是可能对生物通路很重要的基因则会漏掉。)

Q:取top基因分析有什么缺陷吗? 1、经过多重假设检验校正后,单个基因可能达不到统计学意义的阈值,因为芯片分析可能有背景噪声,相关的生物学差异不大。 2、有些显著性差异表达的基因(具有统计学意义)但是没有什么生物学意义。 3、一系列协同作用的基因会影响细胞的生命活动。(与第一条联系起来)单基因分析可能会遗漏对通路的重要影响。例如编码代谢途径重要成员的基因上调20%,可能会显著改变该途径的通量,而且可能比单个基因增加20倍更为重要。 4、当研究相同的生物作用通路时,这两项研究中具有统计学意义的基因列表可能会很少有重叠。(如肿瘤药物敏感组VS不敏感组)

2:那么有什么方法可以对其进行改进嘛?   GSEA(Gene Set Enrichment Analysis)是一种用来分析基因表达的方式手段,既然是Gene Set,那么这个主要手段是关注在了基因集上面的。而且在基因set的基础上,还要进行富集分析。GSEA的目标是确定一个基因集S的成员是否倾向于出现在列表L的顶部(或底部),在这种情况下,该基因集与表型分类区分相关。

Q:说了半天什么是基因set?它和前面得到的那个基因list有什么区别吗?   基因集(gene set)的定义是基于先前的生物学知识,例如,在以前的实验中发表的数据或表达谱上共表达的基因信息数据集合。而基因列表List是经过试验后得到的差异表达基因的列表。

3:既然是说GSEA的目标是对基因集S是否倾向于出现在列表L的顶端或底端,进而确定表型区分情况,那么是如何实现的呢? 3.1:计算富集得分(Enrichment Score简称ES) 对排序后的基因列表,每遇到一个基因集S中有的基因,则增加其分值,如果遇到一个非基因集S的基因则降低其分值。在原文献中有说根据running-sum statistic和weighted Kolmogorov–Smirnov-like statistic 进行统计计算(统计学不到位,恳请大神可以科普了)。从网上找了一张图:

图一:ES的计算方法

简单来说一下这个图,其中Rank List是经过排序后得到的基因列表L,排序原则就是FC,FC是Foldchange即表达的差异倍数。S指的是功能基因集S,红色表示的是Hit说明这个基因List在基因集S里面,如果在,就加分,如果是蓝色,表示这个基因不在,就减去相应的分数。所以在整个扫描过程中,ES是一个动态的值。最终ES值的确定是将杂交数据排序序列所在位置定义为0,ES值定义为距离排序序列的最大偏差。

3.2:评估ES的显著性(通过计算p值) 评估富集得分(ES)的显著性。显著性是通过置换检验 (permutation test)的方法来进行检验的。具体过程是,我们转换不同分数下的数据,并且再一次计算ES值,使之形成一个新的假设的ES分布,如果交换之后,ES的p值相对于新的ES值(统计分布)来说若是显著的变化,则说明该基因集会有生物学意义。 3.3:多重假设检验 多重假设检验校正。当评估了所有基因的数据之后,我们要使用多重假设检验来评估它们的显著性。首先把每一个基因的ES值根据基因集的大小进行标准化,得到Normalized Enrichment Score(NES),之后针对NES计算FDR( false discovery rate),FDR是评估一个NES表达值中所发现的假阳性可能性大小;它是由NES的观测值和零分布时比较得出的。在大多数情况下,选择FDR值为25%来判定是否是富集的功能基因集是合适的,因为通常用于分析的芯片表达数据之间。但是,当分析的芯片数据集较小,分析时选择的是探针间的随机组合(gene-setper-mutation)选择FDR小于5%合适 (PS:之前作者们采取过,family - wise-error rate (FWER)来校正多个假设测试。FWER是一种保守校正,旨在确保报告的结果列表中不包含任何一个假阳性基因集。结果证明,该标准过于保守,以至于许多应用程序都没有产生统计上显著的结果,所以后续用了FDR) 3.3:关注领头亚基(leading edge subset) 此外还有一个领头亚集(leading edge subset),领头亚集中的基因是指对ES值贡献最大的基因集合。当ES为正值时,领头亚集位于ES值对应排序序列之前,反之,则位于ES值对应排序序列之后。   3.3.1:领头亚集的出现说明一方面这些基因在通路中有富集,非散在分布,另一方面,说明这些基因在通路中有共同的表达趋势。   3.3.2:在ES图中出现领头亚集的形状的,表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。如果是尾部的话,也可以关注,其实它们就和A,B class非常相关。

图二:ES图

在原文中,作者进行了很多的检验比较,如不同肺癌,白血病,糖尿病的数据比较得到了不错的结果,接下来一篇笔记就会关注GSEA的实战分析了。

Reference: 1:Subramanian, A., et al. (2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles." Proceedings of the National Academy of Sciences 102(43): 15545-15550. 2:冯春琼, 邹亚光, 周其赵,等. GSEA在全基因组表达谱芯片数据分析中的应用[J]. 现代生物医学进展, 2009, 9(13):2553-2557. 3:GSEA分析是个什么鬼(上)https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=1&srcid=0816ADpKId3sPzgbYfubrFCf#rd 4:GSEA学习笔记 https://mp.weixin.qq.com/s/Z9EOabIyHlT630c_yAC0vg

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 云技术会不会代替芯片和操作系统?

    从事软件开发多年,现在无论大小设备几乎都离不开芯片和操作系统,当然很多单片机本身不带操作系统,从手机到电脑,到家里的电视几乎都离不开芯片和操作系统,而且芯片有C...

    程序员互动联盟
  • 图灵奖得主牵头推动芯片开源,清华伯克利成立RISC-V国际实验室

    目前芯片市场由英特尔、AMD、ARM、高通等厂商把持,前一阵子各大芯片厂商陆续停止向华为供货,导致华为的“备胎”纷纷被迫转正。多亏了任正非的远见,华为十年前就开...

    新智元
  • 半导体老牌贵族做不好的移动处理器,为什么华为、高通可以无往不利

    如今高通、海思、三星、联发科以及展锐,圈出了各自的一亩三分地,并且以5G为中心,展开新一轮的竞争。

    镁客网
  • TNBC分型研究的来龙去脉(逆向收费读文献2019-09)

    2年前,考虑到科研路的艰难,我组建了文献阅读小组,广邀粉丝参与,从自身做起,开始学习及分享!感兴趣可以点击下面的链接跳转去了解详情:

    生信技能树
  • 英特尔收购Barefoot,瞄准网络芯片领域

    英特尔公司将收购网络芯片创业公司Barefoot Networks Inc,在加强Barefoot网络芯片技术的同时更好地与博通公司竞争。Barefoot Ne...

    SDNLAB
  • 苹果欲收购英特尔调制解调器业务,加快芯片自研速度

    据外媒报道,苹果正在和英特尔洽谈,意欲收购英特尔位于德国的调制解调器芯片业务,从而加快其自研芯片的步伐。

    镁客网
  • Arm和AMD“熄火”后,高通大力投入的RISC-V 能否给华为托底?

    对于想要破局的国内科技公司来说,积极发挥对这一架构的影响,依托市场走势去做深入改进以使其找到自己独有的应用方向,或是更加需要考虑的事。

    镁客网
  • 【培训报名倒计时10天】Barefoot Academy – P4实战特训营(第二期)

    P4凭借着网络可编程能力从上到下的渗透,打破了硬件设备对数据转发平面的限制,让数据包的解析和转发流程也能通过编程控制,使其网络更加简单、快速和可编程,全面向用户...

    SDNLAB
  • 【培训】Barefoot Academy – P4实战特训营(第二期)

    P4凭借着网络可编程能力从上到下的渗透,打破了硬件设备对数据转发平面的限制,让数据包的解析和转发流程也能通过编程控制,使其网络更加简单、快速和可编程,全面向用户...

    SDNLAB
  • BAT和华为都入场了,车路协同留给初创公司的机会还有多少?

    BAT和华为带了一个“坏头”,作为科技企业,却“不务正业”跑去“修路”。上行下效,一批初创公司也跟着加入。没错,我说的就是“车路协同”。

    用户2908108

扫码关注云+社区

领取腾讯云代金券