专栏首页企鹅号快讯功能数据库专题-GSEA

功能数据库专题-GSEA

作为一个医学僧背景的生信菜鸟,长期在大神们推荐的各种入门学习方法中摇摆不定,一会儿R最基础,一会儿Python更专业,可是通过背诵内外妇儿毕业的鄙人一到自己写代码就犯怵,code跑明白了恐怕都要毕业了吧。今天就来安利一款不跑代码也可以发SCI(完全干实验)的神器——GSEA :)1.什么是GSEA?

基因集合富集分析(Gene Set Enrichment Analysis, GSEA),是麻省理工学院和哈佛大学的broad institute 研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具,免费注册后即可进行下载(http://www.broadinstitute.org/gsea/downloads.jsp)和更新。该方法上显著富集。根据已有的对基因的定位、功能、生物学意义等知识的基础上,首先构建了一个分子标签数据库,数据库中包含了多个功能基因集。通过分析基因表达数据,得到表达状况是否在某种功能上显著富集。详细内容可以参考原文

[

1

]https://www.ncbi.nlm.nih.gov/pubmed/?term=Proc+Natl+Acad+Sci+U+S+A.+2005+Oct+25%3B102(43)%3A15545-50

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. PNAS 2005 Oct 25;102(43):15545-50

听上去这个GSEA和GO、KEGG很像,但其实是有本质区别的。常见的转录组高通量分析(Microarray&RNA-seq)都是通过对差异比较之后的表达矩阵设定阈值,例如fold change ≧ 2.0 &P≦ 0.05来获取差异基因,之后根据这个基因列表进行GO和KEGG富集分析。这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势,为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。2. 如何进行GSEA分析?GSEA可以进行线上线下两种方法,但是都要基于后台数据库MSigDB(Molecular Signatures Database),数据库中定义了已知的标签基因集合(如下图)可以登录数据库网站http://software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。如果要在线下进行分析,需要下载感兴趣的基因集合(可以下载全部8个clusters,但是最好分开运行,否则PC可能会卡死),另外GSEA研发团队会根据组学知识的发展不断修改和扩展数据库中的基因集合,建议童鞋们采取调取后台数据库的在线分析方法。

操作过程还是比较简单的(完全不需要敲代码),当下载安装好软件后(需要java支持),运行GSEA主要包含文件准备和参数设定几个步骤:(1)准备表达文件;(2)准备表型文件(说明文件);(3)选择研究的目标cluster;(4)参数设置*;

具体操作可以参考相关介绍点击这里(步骤很详细),在这里就不多做赘述,关于参数设置我觉得要必要多说明一下,其中Required fields中Number of permutations理论值在10-1000,建议设置在100-500之间,太低置信度不高,太高电脑会卡死;Basic fields中Max/Min一般设置为500/15;另外Advanced fields中还有一个输出返回值(Plot graphs for the top...)默认是20,这个调整tricky一些,它关系到生成的列表中每一项是否可以查看详情,往往有意义的结果是超过20个的,就需要我们设置更高的数值,但是如果每一次运行都设置很高的话,结果文件包占用空间会很大,造成浪费还影响判读,建议先按默认值或调整为50,结果全部拿到后,按照分析需求再做调整重新run一次。3. GSEA的结果判读结果detail打开会有一个类似下图的表格,我们主要关注这三个部分:1) 标准化富集分数(NES);2) 标准化显著性水平(NOM p-val);3) 矫正多重假设检验(FDR q-val);一般我们认为NES绝对值≧ 1.0,NOM p-val ≦ 0.05,FDR q-val ≦ 0.25是有意义的基因集合,当然也要结合具体情况具体分析。

4. GSEA在研究中的应用同学们看到这里不禁会想:现在知道什么是GSEA了,也学会了分析流程,不过这个真的能帮助我们快速发文章么?当然可以!这里给大家推广一篇文章,完全的干分析不下实验室,结果一半以上来自GSEA。

本文来自企鹅号 - 生信菜鸟团媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • IT 界开源贡献 Top 10,PHP 之父居然排第 10!第一名当之无愧!

    IT界开源贡献Top 10,你认识几个呢? 林纳斯·本纳第克特·托瓦兹 Linux之父 ? 林纳斯·托瓦兹是Linux之父,他是开源理念的发起者之一,他曾经花费...

    企鹅号小编
  • 定义新智慧,这AI很“远景X3”

    随着第四届世界互联网大会在乌镇落下帷幕,"饭局"成了这届互联网大会的最热词汇,而丁磊做局的菜单也被朋友圈疯狂转发。不过除了饭局,这届大会上最受关注的热点无疑就是...

    企鹅号小编
  • 自然语言处理如何快速理解?有这篇文章就够了!

    原文来源:codeburst.io 作者:Pramod Chandrayan 「雷克世界」编译:嗯~阿童木呀、我是卡布达 现如今,在更多情况下,我们是以比特和字...

    企鹅号小编
  • logwatch配置笔记

        https://segmentfault.com/a/1190000002537665

    二狗不要跑
  • 非常Nice的几个Chrome插件

    安装一个新的环境,第一件事打开系统自带的浏览器下载安装Chrome,第二件事就是设置为默认浏览器。

    有福
  • 21个CSS3 /JS 时钟效果

    源码 :https://codepen.io/amirrezajef/pen/NEoJKd

    vivec
  • SWOOLE之代码热更新实现_持续的思考 转

    本人参与的swoole项目有幸被很多朋友使用,我也大力向周边的一些朋友推荐,随着swoole的版本迭代更新,已经足够稳定了,在阿里,腾讯,yy等各大公司都有着使...

    domain0
  • IT,大一,这里我有点建议

    学好C可能不会让你找到个好工作,不知道你们用的是什么书,如果是清华大学的那本就直接丢垃圾桶吧。图书馆负一层的好书(ps:我们学校的计算机书都在负一层,看的人少。...

    Phodal
  • ISSCC 2020: AMD - Chiplets, 把积木玩起来

    本文翻译自EEtimes, 点击文章左下『阅读原文』可以跳转到原文,限于时间跟脑容量,分两次翻译,今天翻第一部分,主要讲AMD 应用Chiplets 架构的受益...

    老秃胖驴

扫码关注云+社区

领取腾讯云代金券