前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KEGG Genes 数据库

KEGG Genes 数据库

作者头像
生信修炼手册
发布2020-05-09 16:54:36
9680
发布2020-05-09 16:54:36
举报
文章被收录于专栏:生信修炼手册

kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。

对于每个基因,除了给出对应的物种,染色体位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,还会给出这个基因对应的KO, module, pathway 等注释信息。

其中KO 注释是核心,kegg 提供了两种工具,用于基因的KO 注释

  1. 对于单个物种的基因组,使用BlastKOALA 工具;
  2. 对于环境微生物,使用GhostKOALA 工具进行注释;

截止到2018年3月7号,所有基因的注释情况如下:

http://www.kegg.jp/kegg/docs/genes_statistics.html

基因从功能上分成了两大类,编码蛋白基因和非编码蛋白基因。从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。

我们来想详细看下human 基因的注释情况

目前共收录了20380个蛋白编码基因,其中13226 个基因有KO 注释;19172 个非编码基因,其中 315个有KO 注释;有pathway 注释的只有 7376 个基因,而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个,这个数字值得我们重点关注。

对于转录组分析而言,KEGG的富集分析是常用的功能分析手段,而20380个蛋白编码基因中,只有30%左右的基因有pathway 信息,剩下的没有pathway 相关信息的基因,在富集分析时 ,会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。

这里我列出了人,小鼠,大鼠基因的pathway 注释情况

org

protein

pathway

hsa

20,380

7376

mmu

22,103

8197

rno

23,503

8436

总体来看,有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的 ,随着研究的不断深入和进行,pathway 数据库也会越来越大, 也会有更多的基因有pathway 相关的信息。现阶段,由于我们对基因功能认知的局限,只能对那些有pathway 信息的基因去研究。所以在富集分析时,我们需要综合多个数据库的结果, 比如 GO, Reatcome 等数据库。

总结:

  1. kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。
  2. 对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。
  3. 由于我们现阶段对基因功能认知的局限性,有pathway注释信息的基因比例较低,在进行功能富集分析时,建议综合多个数据库的结果。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结:
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档