功能数据库专题-GSEA

作为一个医学僧背景的生信菜鸟,长期在大神们推荐的各种入门学习方法中摇摆不定,一会儿R最基础,一会儿Python更专业,可是通过背诵内外妇儿毕业的鄙人一到自己写代码就犯怵,code跑明白了恐怕都要毕业了吧。今天就来安利一款不跑代码也可以发SCI(完全干实验)的神器——GSEA :)1.什么是GSEA?

基因集合富集分析(Gene Set Enrichment Analysis, GSEA),是麻省理工学院和哈佛大学的broad institute 研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具,免费注册后即可进行下载(http://www.broadinstitute.org/gsea/downloads.jsp)和更新。该方法上显著富集。根据已有的对基因的定位、功能、生物学意义等知识的基础上,首先构建了一个分子标签数据库,数据库中包含了多个功能基因集。通过分析基因表达数据,得到表达状况是否在某种功能上显著富集。详细内容可以参考原文

[

1

]https://www.ncbi.nlm.nih.gov/pubmed/?term=Proc+Natl+Acad+Sci+U+S+A.+2005+Oct+25%3B102(43)%3A15545-50

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. PNAS 2005 Oct 25;102(43):15545-50

听上去这个GSEA和GO、KEGG很像,但其实是有本质区别的。常见的转录组高通量分析(Microarray&RNA-seq)都是通过对差异比较之后的表达矩阵设定阈值,例如fold change ≧ 2.0 &P≦ 0.05来获取差异基因,之后根据这个基因列表进行GO和KEGG富集分析。这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势,为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。2. 如何进行GSEA分析?GSEA可以进行线上线下两种方法,但是都要基于后台数据库MSigDB(Molecular Signatures Database),数据库中定义了已知的标签基因集合(如下图)可以登录数据库网站http://software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。如果要在线下进行分析,需要下载感兴趣的基因集合(可以下载全部8个clusters,但是最好分开运行,否则PC可能会卡死),另外GSEA研发团队会根据组学知识的发展不断修改和扩展数据库中的基因集合,建议童鞋们采取调取后台数据库的在线分析方法。

操作过程还是比较简单的(完全不需要敲代码),当下载安装好软件后(需要java支持),运行GSEA主要包含文件准备和参数设定几个步骤:(1)准备表达文件;(2)准备表型文件(说明文件);(3)选择研究的目标cluster;(4)参数设置*;

具体操作可以参考相关介绍点击这里(步骤很详细),在这里就不多做赘述,关于参数设置我觉得要必要多说明一下,其中Required fields中Number of permutations理论值在10-1000,建议设置在100-500之间,太低置信度不高,太高电脑会卡死;Basic fields中Max/Min一般设置为500/15;另外Advanced fields中还有一个输出返回值(Plot graphs for the top...)默认是20,这个调整tricky一些,它关系到生成的列表中每一项是否可以查看详情,往往有意义的结果是超过20个的,就需要我们设置更高的数值,但是如果每一次运行都设置很高的话,结果文件包占用空间会很大,造成浪费还影响判读,建议先按默认值或调整为50,结果全部拿到后,按照分析需求再做调整重新run一次。3. GSEA的结果判读结果detail打开会有一个类似下图的表格,我们主要关注这三个部分:1) 标准化富集分数(NES);2) 标准化显著性水平(NOM p-val);3) 矫正多重假设检验(FDR q-val);一般我们认为NES绝对值≧ 1.0,NOM p-val ≦ 0.05,FDR q-val ≦ 0.25是有意义的基因集合,当然也要结合具体情况具体分析。

4. GSEA在研究中的应用同学们看到这里不禁会想:现在知道什么是GSEA了,也学会了分析流程,不过这个真的能帮助我们快速发文章么?当然可以!这里给大家推广一篇文章,完全的干分析不下实验室,结果一半以上来自GSEA。

本文来自企鹅号 - 生信菜鸟团媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

强大的图形功能软件:S-Plus

【摘要】S语言是由AT&T 贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。它的丰富的数据类型(向量、数组、列表、对象等)特别有利于实现新的统...

16310
来自专栏腾讯移动品质中心TMQ的专栏

小样邂逅单元测试后的反思

本文首先从理论层面对单测进行理解,包括澄清自己对单测的误解以及解惑单测的意义(既然要开搞,必须要真正认同并系统认识它);接着结合自己的实际工作,阐述了单测是如何...

1.3K1
来自专栏张善友的专栏

浅述RDF,畅想一下FOAF应用

最近一直都在看一些RDF和Semantic Web方面的东西,本来有一个同事是来自Tsinghua AI实验室的,本想跟他好好讨论讨论,不过估计也没有机会了。国...

18010
来自专栏Data Analysis & Viz

手把手教你完成一个数据科学小项目(3):数据异常与清洗

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-proje...

993
来自专栏数据小魔方

当PowerBI遇到R语言

PowerBI作为微软系最新的商务智能办公系统,自去年发布以来,一直都备受瞩目。 他的更新频次相当之高,功能更新迭代非常迅速。 大概对可视化领域稍有涉猎的朋友们...

3804
来自专栏机器学习和数学

自然语言处理 | 使用Spacy 进行自然语言处理

Spacy的github地址:https://github.com/explosion/spaCy

512
来自专栏阮一峰的网络日志

公众分类法(Folksonomy)

先从一个具体的问题开始思考:如何给电子书分类?(这个问题可以推广到如何给信息分类。) 传统的方法是使用自上而下的目录分类法(Taxonomy)。在中国是中图分类...

41010
来自专栏AI研习社

如何在 Kaggle 中高效搜索数据集?快吃下这枚安利

对于关注数据科学的同学来说,Kaggle 上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle 官方博客就刊登了 Rac...

2464
来自专栏SEO

「因素」本地搜索引擎优化排名因素指南

28、非结构化引文的质量/权重(报纸文章,博客文章,政府网站,行业协会)(占1.65)

982
来自专栏AI科技评论

开发 | 如何在Kaggle中高效搜索数据集?快吃下这枚安利

AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊...

3489

扫码关注云+社区