专栏首页生信技能树GSEA分析一文就够(单机版+R语言版)

GSEA分析一文就够(单机版+R语言版)

通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,但,这只是分析的开始,最经典的分析就是GSEA了,看看基因全局表达量的变化是否有某些特定的基因集合的倾向性。

历史目录: 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够

GSEA软件的用法

这个是java软件,所以各个电脑操作系统都可以很容易安装及使用。我在生信菜鸟团博客也手把手讲解了详细操作过程,这里就不再赘述咯:

  • 用GSEA来做基因集富集分析 http://www.bio-info-trainee.com/1282.html
  • 批量运行GSEA,命令行版本 http://www.bio-info-trainee.com/1334.html

GSEA的原理

首先对每个样本里面的基因的表达值在样本内部进行排序,本质是是根据该基因在两个group之间的差异来排序!但是差异如何量化,就有多种方法了,可以是Signal2Noise 值,或者是Ttest值,或者是fold change,logFC等等。默认的,GSEA会根据signal-to-noise metric 来对基因进行排序。但是也可以选择其它metric。

  • 如果是自己已经排序好了的基因,也可以直接拿来做GSEA分析了,见: GSEAPreranked Page in the GSEA User Guide.
  • 如果是affymetrix的表达矩阵,不需要提前进行Present/Marginal/Absent Calls. 来过滤掉一些表达探针,GSEA需要各种情况的表达数据。
  • 如果是gct and pcl 的表达矩阵,缺失值空着就好了。但是如果缺失值太多了,这样在计算signal-to-noise的时候,不同group的样本数就不一致了,mean和sd都会变好,最好是避免这样的情况,可以考虑进行插值,或者过滤掉这样的探针。

同时不需要提前过滤掉低表达量的探针或者低variance的探针。它们都会在我们算好的 ranked gene list 的中间部分,增强我们的统计效应。完全不用担心数据量计算时间的问题。

值得注意的是如果要想计算Signal2Noise ,每个group必须要有3个及以上的samples

值得一提的是除了两个group之间的比较可以做gsea之外,还可以针对连续性的phenotypes和time-course数据。参考:http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html

假设芯片或者其它测量方法测到了2万个基因,那么这两万个基因在case和control组的差异度量(六种差异度量,默认是signal 2 noise,GSEA官网有提供公式,也可以选择大家熟悉的foldchange)肯定不一样,那么根据它们的差异度量,就可以对它们进行排序,并且Z-score标准化,在下图的最底端展示的就是

img

那么图中间,就是我们每个gene set里面的基因在所有的2万个排序好基因的位置,如果gene set里面的基因集中在2万个基因的前面部分,就是在case里面富集,如果集中在后面部分,就是在control里面富集着。

而最上面的那个ES score的算法,大概如下:

1

仔细看,其实还是能看明白的,每个基因在每个gene set里面的ES score取决于这个基因是否属于该gene set,还有就是它的差异度量,上图的差异度量就是FC(foldchange),对每个gene set来说,所有的基因的ES score都要一个个加起来,叫做running ES score,在加的过程中,什么时候ES score达到了最大值,就是这个gene set最终的ES score!

所谓的GSEA分析,就是一个个遍历探索已知的基因集合,在我们的表达矩阵里面是否出现了某种统计学显著的扰动,如上图所示,要深入理解,请看我在生信菜鸟团写的另外3个教程:

  • java版本GSEA软件的ES score图片的修改 http://www.bio-info-trainee.com/2105.html
  • GSEA的统计学原理试讲 http://www.bio-info-trainee.com/2102.html
  • 制作自己的gene set文件给gsea软件 http://www.bio-info-trainee.com/2144.html

本文分享自微信公众号 - 生信技能树(biotrainee)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 表观调控13张图之一证明基因干扰有效性

    我把表观调控数据分析,拆分成为了13张图,分别录制为13个视频,即将免费发布在B站,这个期间我们的视频编辑师还在兢兢业业的奋斗,希望这13张图能带领大家学会表观...

    生信技能树
  • R-脚本命名和管理推荐

    有经验的前辈,R里的脚本都是step0、step1、step2,一清二楚,相关内容都集中在Rproject里;

    生信技能树
  • 有趣的基因命名

    还有,如果你看到HS.开头的基因,它是unigene的ID了,已经不再是symbol啦。

    生信技能树
  • “个性化”GSEA分析 - Do GSEA with specified gene set

    首先,让我们再简单回顾下GSEA的操作过程,(1)我们需要按顺序排列好的gene list用于分析,(2)需要参考基因集pre-defined gene set...

    用户6317549
  • 【数据可视化】可视化图表表达的十个错误

    数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错...

    小莹莹
  • SAP云平台cf push命令报错的解决方法

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    Jerry Wang
  • SAP云平台cf push命令报错的解决方法

    Jerry Wang
  • 【必看工具】可视化图表表达的10个错误。

    数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错...

    小莹莹
  • 防火墙技术之---NAT(3)

                                         NAT地址转换类型之我见

    用户2398817
  • Ibatisnet介绍

    介绍 欢迎来到iBATISNet Database Layer!这个框架将让你能够更好的在dotnet应用中设计和实现实体层。这个框架有两个主要的组成部分,一个...

    张善友

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动