前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MSigDB:GSEA提供的基因集数据库

MSigDB:GSEA提供的基因集数据库

作者头像
生信修炼手册
发布2020-05-08 16:49:10
2.6K0
发布2020-05-08 16:49:10
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigdb。本章主要介绍这个数据库,官网如下

http://software.broadinstitute.org/gsea/msigdb/index.jsp

对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。

该数据库是不断更新和完善的,目前最新版本为v6.2, 更新于2018年7月,共收录了17810个基因集。不同版本如下收录的基因集数目变化如下

如此多的数据,肯定需要分门别类的整理,在MSigDB中,将所有的基因集划分为以下8大类别

1. H: hallmark gene sets

该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。

2. C1: positional gene sets

该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。

3. C2:curated gene sets

该类别包含了已知数据库,文献和专家支持的基因集信息,包含下面5个二级分类

KEGG为例,包含了186个基因集,每个基因集本质上都对应pathway 数据库里的一条通路。比如基因集KEGG_ABC_TRANSPORTERS对应pathway数据库中的hsa02010

4. C3 : motif gene sets

该类别包含了miRNA靶基因和转录因子结合区域等基因集合,示意如下

无论是转录因子还是miRNA, 都是通过特定的motif序列来识别可以结合的区域,这些基因集合,本质上为具有相同motif序列的基因集,比如AAACCAC_MIR140这个基因集, 具有相同的AAACCACmotif, 而hsa-miR-140可以识别该motif然后进行结合,所以AAACCAC_MIR140是hsa-miR-140靶标基因的集合。

5. C4 : computational gene sets

该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因,示意如下

6. C5 : GO gene sets

该类别包含了Gene Ontology对应的基因集合,分为以下3大类别

每个基因集对应一个GO term, 比如基因集GO_MOLTING_CYCLE对应GO:0042303

7. C6 : oncogenic signatures

该类别包含已知条件处理后基因表达量发生变化的基因,比如AKT_UP.V1_DN对应RAD001试剂处理后表达量下调的基因。

8. C7 : immunologic signatures

该类别包含了免疫系统功能相关的基因集合。 在官网上,可以方便的检索这些基因集,链接如下

http://software.broadinstitute.org/gsea/msigdb/genesets.jsp 选择感兴趣的类别,然后在页面最下方就可以看到该类别下的所有基因集,示意如下

我选择的是C1大类,2号染色体上的基因集,chr2p这种信息就是每个基因集的名字,点击可以查看具体信息,示例如下

结果页面可以看到该基因集的名称,描述信息等,也可以直接下载,有多种格式供选择。官网也提供了下载功能,一次下载所有的基因集,需要注册登录才能使用该功能。

对于GSEA而言,不仅是富集分析算法的一次提升,更是研究角度的高度升华。传统的富集分析只会对GO, pathway等功能数据库进行分析,而MSigDB提供了多方位的研究思路,不仅从功能出发,也可以从位置,表达量变化趋势等角度进行探究,极大的丰富和扩展了富集分析的研究对象。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. H: hallmark gene sets
  • 2. C1: positional gene sets
  • 3. C2:curated gene sets
  • 4. C3 : motif gene sets
  • 5. C4 : computational gene sets
  • 6. C5 : GO gene sets
  • 7. C6 : oncogenic signatures
  • 8. C7 : immunologic signatures
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档