功能数据库专题-GSEA

作为一个医学僧背景的生信菜鸟,长期在大神们推荐的各种入门学习方法中摇摆不定,一会儿R最基础,一会儿Python更专业,可是通过背诵内外妇儿毕业的鄙人一到自己写代码就犯怵,code跑明白了恐怕都要毕业了吧。今天就来安利一款不跑代码也可以发SCI(完全干实验)的神器——GSEA :)1.什么是GSEA?

基因集合富集分析(Gene Set Enrichment Analysis, GSEA),是麻省理工学院和哈佛大学的broad institute 研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具,免费注册后即可进行下载(http://www.broadinstitute.org/gsea/downloads.jsp)和更新。该方法上显著富集。根据已有的对基因的定位、功能、生物学意义等知识的基础上,首先构建了一个分子标签数据库,数据库中包含了多个功能基因集。通过分析基因表达数据,得到表达状况是否在某种功能上显著富集。详细内容可以参考原文

[

1

]https://www.ncbi.nlm.nih.gov/pubmed/?term=Proc+Natl+Acad+Sci+U+S+A.+2005+Oct+25%3B102(43)%3A15545-50

Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. PNAS 2005 Oct 25;102(43):15545-50

听上去这个GSEA和GO、KEGG很像,但其实是有本质区别的。常见的转录组高通量分析(Microarray&RNA-seq)都是通过对差异比较之后的表达矩阵设定阈值,例如fold change ≧ 2.0 &P≦ 0.05来获取差异基因,之后根据这个基因列表进行GO和KEGG富集分析。这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势,为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。2. 如何进行GSEA分析?GSEA可以进行线上线下两种方法,但是都要基于后台数据库MSigDB(Molecular Signatures Database),数据库中定义了已知的标签基因集合(如下图)可以登录数据库网站http://software.broadinstitute.org/gsea/msigdb或相关介绍点击这里。如果要在线下进行分析,需要下载感兴趣的基因集合(可以下载全部8个clusters,但是最好分开运行,否则PC可能会卡死),另外GSEA研发团队会根据组学知识的发展不断修改和扩展数据库中的基因集合,建议童鞋们采取调取后台数据库的在线分析方法。

操作过程还是比较简单的(完全不需要敲代码),当下载安装好软件后(需要java支持),运行GSEA主要包含文件准备和参数设定几个步骤:(1)准备表达文件;(2)准备表型文件(说明文件);(3)选择研究的目标cluster;(4)参数设置*;

具体操作可以参考相关介绍点击这里(步骤很详细),在这里就不多做赘述,关于参数设置我觉得要必要多说明一下,其中Required fields中Number of permutations理论值在10-1000,建议设置在100-500之间,太低置信度不高,太高电脑会卡死;Basic fields中Max/Min一般设置为500/15;另外Advanced fields中还有一个输出返回值(Plot graphs for the top...)默认是20,这个调整tricky一些,它关系到生成的列表中每一项是否可以查看详情,往往有意义的结果是超过20个的,就需要我们设置更高的数值,但是如果每一次运行都设置很高的话,结果文件包占用空间会很大,造成浪费还影响判读,建议先按默认值或调整为50,结果全部拿到后,按照分析需求再做调整重新run一次。3. GSEA的结果判读结果detail打开会有一个类似下图的表格,我们主要关注这三个部分:1) 标准化富集分数(NES);2) 标准化显著性水平(NOM p-val);3) 矫正多重假设检验(FDR q-val);一般我们认为NES绝对值≧ 1.0,NOM p-val ≦ 0.05,FDR q-val ≦ 0.25是有意义的基因集合,当然也要结合具体情况具体分析。

4. GSEA在研究中的应用同学们看到这里不禁会想:现在知道什么是GSEA了,也学会了分析流程,不过这个真的能帮助我们快速发文章么?当然可以!这里给大家推广一篇文章,完全的干分析不下实验室,结果一半以上来自GSEA。

本文来自企鹅号 - 生信菜鸟团媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

开发 | 使用 Rodeo 分析总统候选人的推特内容

AI 科技评论按 :本文作者Datartisan,载于其知乎专栏——Datartisan数据工匠。AI 科技评论转载已获得原作者授权。 介绍 选举季已经到来,对...

36510
来自专栏生信技能树

【直播】我的基因组76:用krona对血液全基因组的菌比例可视化

关于我前面我说到的NGS测序血液里面的菌的问题,总共8.9亿reads里面是有部分(850万)无法比对上的,850万里面只有不到10万比对到了微生物,说明我的基...

3498
来自专栏帘卷西风的专栏

cocos2dx使用TiledMap创建斜45度地图场景

做游戏,场景是一个很重要的部分,如果缺少这一步,很难做出好的游戏,对于cocos2dx来说,有很多2D的地图编辑器可以用,效果都还可以,其中Tiled是支持的...

1362
来自专栏九彩拼盘的叨叨叨

遇到技术问题,该如何提问

你提问前有在 Google、百度或者我们的 搜索栏 先行搜索过吗?使用搜索(引擎),能更快地帮你找到答案。即使没找到,在看了相关或者类似的问题之后,你的提问会更...

633
来自专栏吉浦迅科技

用Jetson TK1做一个可以抓取的机器人!

BunnyBot是一种基于ROS的机器人平台,可以使用其内置的抓取手臂和视觉系统来执行有用的任务! 目标 - 这个机器人可以自主导航,可以躲避障碍物,可以通过...

3619
来自专栏IT派

常用python组件包

$ pip list Package Version ---------------------- ------------- a...

922
来自专栏phodal

为什么JavaScript也将征服VR世界

这篇文章本应该在2个月前就出现了,但是一直都没有足够的动力去写。直到,我最近在玩知乎,也看到了一个类似的问题。加上这是一个无聊的小长假,就把这篇文章写出来。 这...

1688
来自专栏技术小黑屋

实践整理:日语考试注意

上周日刚刚参加了N4考试,之前一直对日语考试有很多疑惑,终于亲自参加了,种种问题明白了,这里整理一下,备解他人之惑。

831
来自专栏大数据挖掘DT机器学习

【案例】SPSS商业应用系列第1篇:预测分析模型提高超市销量

Statistics 和 Modeler作为 IBM SPSS 软件家族中重要的成员,是专业的科学统计、数据挖掘分析工具,其具有功能强大,应用广...

3915
来自专栏Data Analysis & Viz

图表太丑怎么破,ECharts神器带你飞!

在本专栏或文集中,我曾多次使用ECharts绘制图表、进行可视化,也渐渐积累了30多个实例,本文对此前用过的所有图表和代码进行整理并分享,以给想绘制精美图表的人...

2382

扫码关注云+社区