首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

KEGG Genes 数据库

kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。

对于每个基因,除了给出对应的物种,染色体位置,ncbi-gene ID,DNA 序列, 蛋白序列等基本信息以外,还会给出这个基因对应的KO, module, pathway 等注释信息。

其中KO 注释是核心,kegg 提供了两种工具,用于基因的KO 注释

对于单个物种的基因组,使用BlastKOALA 工具;

对于环境微生物,使用GhostKOALA 工具进行注释;

截止到2018年3月7号,所有基因的注释情况如下:

http://www.kegg.jp/kegg/docs/genes_statistics.html

基因从功能上分成了两大类,编码蛋白基因和非编码蛋白基因。从注释信息的角度,提供了KO , pathway, Enzyme 共3种kegg 的注释。

我们来想详细看下human 基因的注释情况

目前共收录了20380个蛋白编码基因,其中13226 个基因有KO 注释;19172 个非编码基因,其中 315个有KO 注释;有pathway 注释的只有 7376 个基因,而有Enzyme 酶类注释的只有3261 个基因。其中pathway 相关基因只有7376个,这个数字值得我们重点关注。

对于转录组分析而言,KEGG的富集分析是常用的功能分析手段,而20380个蛋白编码基因中,只有30%左右的基因有pathway 信息,剩下的没有pathway 相关信息的基因,在富集分析时 ,会被忽略掉了。所以pathway 富集分析还是有一定的局限性的。

这里我列出了人,小鼠,大鼠基因的pathway 注释情况

总体来看,有pathway注释信息的基因比例都很低。pathway 是基于我们已有的认知来构建的 ,随着研究的不断深入和进行,pathway 数据库也会越来越大, 也会有更多的基因有pathway 相关的信息。现阶段,由于我们对基因功能认知的局限,只能对那些有pathway 信息的基因去研究。所以在富集分析时,我们需要综合多个数据库的结果, 比如 GO, Reatcome 等数据库。

总结:

kegg genes 数据库收录了基因的信息,包括了编码基因和非编码基因。

对于单基因组,采用BlastKOALA 进行KO 注释;对于宏基因组,采用GhostKOALA 进行注释。

由于我们现阶段对基因功能认知的局限性,有pathway注释信息的基因比例较低,在进行功能富集分析时,建议综合多个数据库的结果。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180308G1G4WF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券