前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么选择GSEA分析?和KEGG和GO分析有什么区别?

为什么选择GSEA分析?和KEGG和GO分析有什么区别?

作者头像
DoubleHelix
发布2020-06-17 16:00:06
17.4K1
发布2020-06-17 16:00:06
举报
文章被收录于专栏:生物信息云生物信息云
我们前面

但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。

目前,市面上绝大多数公司在求得差异基因列表后,都会在此之上提供给客户Pathway 以及GO 富集分析,很多人也是这么干的。毕竟给予成百上千的差异表达基因以简洁、明晰的生物学功能的概括,才是进行高通量生物学表达谱实验的主要目的。然而,在实际应用于生物学高通量数据时,它们都有一个重大的缺陷:对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(logFC) ≧2.0 & FDR ≦ 0.05。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍,因为实际通过芯片观测到的RNA 表达变化,往往是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度是不同的:在神经递质系统内,一个1.2 倍的表达差异即可能产生及其显著的效应。

那我们说的GSEA:Gene Set Enrichment Analysis (基因集富集分析)又是什么东西?所以我们还是从KEGG和GO说起。


除了对基因本身功能的注释,我们也知道基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。对该数据库不是很了解的,可以先阅读文章:KEGG数据库使用及通路分析教程,在这篇文章中介绍了该数据库的使用教程,也介绍了简单的通路分析。

GO(geneontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的, 对基因和蛋白质功能进行限定和描述的, 并能随着研究不断深入而更新的语义词汇标准。GO是多种生物本体语言中的一种, 提供了三层结构的系统定义方式,用于描述基因产物的功能。他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)。细胞组份用于描述基因产物在细胞中的位置,如内质网,核或蛋白酶体等;分子功能大部分指的是单个基因产物的功能,如结合活性或催化活性等; 生物学途径/过程 多是指具有多个步骤的有序的生物过程,如细胞生长、分化和维持、凋亡以及信号传导等过程。

利用GO数据库,我们就可以得到我们的目标基因在CC, MF和BP三个层面上,主要和什么有关。比如前面我们利用FunRich工具软件分析我们的差异表达基因,发现这些差异表达的基因进行细胞组分分析,发现35.2%都是表达膜蛋白的基因。

关于GO的基础理论如果想进一步深入了解,文末获取资料

关于通路数据库很多,比如:UCSD Signaling Gateway,Reactome Pathway 数据库等。记不住那么多,那我告诉你一个,这个网站统计了所有通路数据库:http://www.pathguide.org/,用的时候去查,可能有适合你的工具。


那么什么是GSEA?

GSEA:基因集富集分析 (Gene Set Enrichment Analysis, GSEA) ,其基本思想是使用预定义的基因集(通常来自功能注释或先前实验的结果),将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。

MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb

包括H和C1-C7八个系列(Collection),每个系列内容为:

H: hallmark gene sets (效应)特征基因集合,共50组

点击相应的基因集就可以看到该基因集合的描述信息,如我们点击第一个:HALLMARK_ADIPOGENESIS,脂肪形成的基因集。我们可能要关注一下基因集合的数据文件,有很多种格式,grp,text,gmt,gmx以及xml格式。

我们可以点击(show collections to investigate for overlap with this gene set)查看该基因集合有哪些基因。

C1: positional gene sets 位置基因集合,根据染色体位置,共299个

部分截图如下:

我们顺便点击一个也可以查看该集合的信息。

C2: curated gene sets:(专家)共识基因集合,基于通路、文献等。有5529个基因集,可能我们比较关注的是,KEGG subset ,186个基因集。

比如癌症通路的基因集。

C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分。总共3735个基因集。

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。

C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分),这部分,我们也是比较关注的,所以能用GSEA分析就用GSEA。

C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据。

C7: immunologic signatures: 免疫相关基因集合。


GO文件,后台回复:GO基础理论

关于相关分析,后续介绍..................


本文也参考了很多网络资料,有微信公众号:来自小张聊科研,生信宝典,猫头鹰教室的文章,就此感谢!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档