功能数据库专题-GSEA

作为一个医学僧背景的生信菜鸟,长期在大神们推荐的各种入门学习方法中摇摆不定,一会儿R最基础,一会儿Python更专业,可是通过背诵内外妇儿毕业的鄙人一到自己写代码就犯怵,code跑明白了恐怕都要毕业了吧。今天就来安利一款不跑代码也可以发SCI(完全干实验)的神器——GSEA :)1.什么是GSEA?

基因集合富集分析(Gene Set Enrichment Analysis, GSEA),是麻省理工学院和哈佛大学的broad institute 研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具,免费注册后即可进行下载(http://www.broadinstitute.org/gsea/downloads.jsp)和更新。该方法上显著富集。根据已有的对基因的定位、功能、生物学意义等知识的基础上,首先构建了一个分子标签数据库,数据库中包含了多个功能基因集。通过分析基因表达数据,得到表达状况是否在某种功能上显著富集。详细内容可以参考原文

[

1

]https://www.ncbi.nlm.nih.gov/pubmed/?term=Proc+Natl+Acad+Sci+U+S+A.+2005+Oct+25%3B102(43)%3A15545-50

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. PNAS 2005 Oct 25;102(43):15545-50

听上去这个GSEA和GO、KEGG很像,但其实是有本质区别的。常见的转录组高通量分析(Microarray&RNA-seq)都是通过对差异比较之后的表达矩阵设定阈值,例如fold change ≧ 2.0 &P≦ 0.05来获取差异基因,之后根据这个基因列表进行GO和KEGG富集分析。这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势,为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。2. 如何进行GSEA分析?GSEA可以进行线上线下两种方法,但是都要基于后台数据库MSigDB(Molecular Signatures Database),数据库中定义了已知的标签基因集合(如下图)可以登录数据库网站http://software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。如果要在线下进行分析,需要下载感兴趣的基因集合(可以下载全部8个clusters,但是最好分开运行,否则PC可能会卡死),另外GSEA研发团队会根据组学知识的发展不断修改和扩展数据库中的基因集合,建议童鞋们采取调取后台数据库的在线分析方法。

操作过程还是比较简单的(完全不需要敲代码),当下载安装好软件后(需要java支持),运行GSEA主要包含文件准备和参数设定几个步骤:(1)准备表达文件;(2)准备表型文件(说明文件);(3)选择研究的目标cluster;(4)参数设置*;

具体操作可以参考相关介绍点击这里(步骤很详细),在这里就不多做赘述,关于参数设置我觉得要必要多说明一下,其中Required fields中Number of permutations理论值在10-1000,建议设置在100-500之间,太低置信度不高,太高电脑会卡死;Basic fields中Max/Min一般设置为500/15;另外Advanced fields中还有一个输出返回值(Plot graphs for the top...)默认是20,这个调整tricky一些,它关系到生成的列表中每一项是否可以查看详情,往往有意义的结果是超过20个的,就需要我们设置更高的数值,但是如果每一次运行都设置很高的话,结果文件包占用空间会很大,造成浪费还影响判读,建议先按默认值或调整为50,结果全部拿到后,按照分析需求再做调整重新run一次。3. GSEA的结果判读结果detail打开会有一个类似下图的表格,我们主要关注这三个部分:1) 标准化富集分数(NES);2) 标准化显著性水平(NOM p-val);3) 矫正多重假设检验(FDR q-val);一般我们认为NES绝对值≧ 1.0,NOM p-val ≦ 0.05,FDR q-val ≦ 0.25是有意义的基因集合,当然也要结合具体情况具体分析。

4. GSEA在研究中的应用同学们看到这里不禁会想:现在知道什么是GSEA了,也学会了分析流程,不过这个真的能帮助我们快速发文章么?当然可以!这里给大家推广一篇文章,完全的干分析不下实验室,结果一半以上来自GSEA。

本文来自企鹅号 - 生信菜鸟团媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏嵌入式程序猿

怎么样用万用表检测IGBT

IGBT是变频器中非常重要的功率器件,这段时间给大家推送了多篇变频器拆解,设计的文章,而功率器件的好坏是检测中非常重要的一环,那么如何用万用表检测呢,我们以英飞...

1913
来自专栏PPV课数据科学社区

亮了!用Excel画出一目了然的数据地图

我在专栏(钱粮胡同 28 号)里写了一篇文章: 用 Excel 做出强大漂亮的数据地图 - 钱粮胡同 28 号 放在这里分享给大家。 这个方法的好处是:1)不...

4898
来自专栏程序员互动联盟

如何学好单片机?

1.首先把常见的基础知识通一遍,第一遍不需要理解的很明白,第二遍或者第三遍的时候开始深耕细作,开始全面的实践学习,这个阶段C语言基础要弄牢固。

852
来自专栏SDNLAB

超大规模数据中心网络

一、计算模式的演进 图 1 计算模式的演进 计算纪年: 1、大型机时代:20世纪60~70年代,计算机体积大、价格高,支持成百上千用户同时操作。 2、个人电...

3656
来自专栏IT派

争论|摩尔定律已死?GPU会取代CPU的位置吗?

如果你觉得好的话,不妨分享到朋友圈。 京举办的NVIDIA GTC China会议中,无论是AI智能运算,还是服务器数据中心、智能城市,甚至还有去年很火热但是...

3534
来自专栏Golang语言社区

转--我们为什么选择Golang重构Worker系统

之前发了一篇帖子,讲了暴漫用golang重构了worker系统,有好多朋友问到语言选择的问题。 其实在用Golang重写我们的worker系统之前是做过很多调研...

3825
来自专栏生信技能树

生信技巧第06课-你可能需要学一点编程

不知不觉就第6讲了,本次视频还是有干货的,毕竟是某人花了50块钱找我给他录制的,你看完就相当于赚了50块钱哦!

1263
来自专栏生信技能树

peerJ期刊探索

开放获取的期刊--PeerJ由Peter Binfield(曾在PLOS ONE任职)和Jason Hoyt(曾为Mendeley的首席科学家)于2012年6月...

3274
来自专栏hotqin888的专栏

浅谈onlyoffice文档协作在工程设计中的应用——共享excel计算书

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

1362
来自专栏PPV课数据科学社区

11个你可能不知道的Python库

现在有如此之多的Python包,几乎没有人能够全盘掌握。 光是PyPI就可单独列出47,000个包! 近日,听到很多数据科学家切换到Python的消息,我不由地...

3468

扫码关注云+社区