Y大宽-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Y大宽

专栏成员

185

文章

584554

阅读量

84

订阅数

Cytoscape插件3：Enrichment Map(1)

数据库 react

早期的基因列表解释依赖于选择一系列高得分的基因，然后建立相当主观奇怪的关系。富集分析是一个自动的，基于严格的统计学的方法来分析和解释很大的基因列表，使用的是先验知识。富集分析来评估输入的基因列表在一个已知功能基因集的上调或下调情况。如果一个基因列表中的基因在这个已知功能集中出现的基因数目显著很多，这很可能预示这，这个生物学过程在作者研究的状况下扮演着重要角色。这个分析可以被其他已知的功能基因集重复，这个功能基因集可能数以千计。过去几年中，有超过60种富集分析方法和工具出现。他们的主要区别在于 -（a）已知功能基因集的数据库不一样 -（b）用来评估富集的统计学方法不一样。在接下来的几个部分，我们简要review 基因富集已经存在的几种方法，主要考虑到两个方法。大多数的富集工具都是来自于GO解释，因为它们对大多数生物来说容易获取，并且覆盖的基因数很多，另外，还有其他一些功能基因集存在，除了GO也还有其他一些工具。功能基因集可以基于他们参与的代谢过程或信号通路来进行定义（比如KEGG,Reactome）,也可以由基因表达谱调节的目标基因定义（比如mircoRNA,转录因子），也可以由蛋白质特征定义（比如结构域，染色体位置，与某种疾病的联系，刺激因子，或基因扰动等）。多个来源的功能基因集被一些像MSigDB或WhichGenes收集。不是所有的生物被功能基因集覆盖了，并且很多工具值支持特定的生物。决定富集的统计学方法要么是基于阈值要么是基于全分布。基于阈值的方法需要用户输入排名靠前的不连续的基因列表，这需要设定一个基于统计学的基因得分阈值。基于超几何分布的Fisher‘s精确单尾检验是阐释这个问题的第一个方法，并且会继续成为这种类型最常使用的方法。这些方法对自然非连续分布列表很有用，但是当对连续的基因得分评判时就有缺点了。尤其，结果如果对阈值的选择不稳定，并且，以二进位的方式对待基因得分有很多信息确实（这里说的二进位指的是要么选中，要么不被选中）。另一方面，基于基因全分布的方法没有门槛threshold-free，因为他们检测基因集靠的是比较他们的得分分布vs背景分布。因为这个原因，他们经常被认为是优于threshold-dependent方法，尤其和一个连续的基因集得分。GSEA（Gene-Set Enrichment Analysis），它的基因排序rank源于差异表达或其他统计学，是最流行的技术之一，虽然也有其他的全分布检验模型被提出。

2018-09-10

3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态