首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快速定位您的序列注释信息——KEGG数据库使用说明

15

前情提要

基因组序列注释是基因组学功能研究的重要方面,高效、快速的利用KEGG数据库查找感兴趣的注释信息是基因研究中的重要手段。KEGG全称Kyoto Encyclopedia of Genes and Genome(京都基因及基因组百科全书),是由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。

KEGG包含四大数据库:

基因组信息数据库,包括完整和部分测序的基因组序列(KEGGGene);

功能信息数据库,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息(KEGGPathway);

化学物质、酶分子、酶反应等信息数据库(KEGGLigand);

各种生物之间的层次关系数据库(KEGGBrite)。

此外,通过与世界上其它一些大型生物信息学数据库的连接,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。KEGG建立了KEGG直系同源系统(the KEGG Orthology (KO) system),这个系统通过把分子网络的相关信息连接到基因组中,从而发展和促进了跨物种注释流程。

那么,如何应用KEGG数据库快速查找到自己想要的信息呢?且听小编慢慢道来。

01

PATHWAY查找

STEP 1:

首先通过网址http://www.genome.jp/kegg/进入KEGG网址首页,单击PATHWAY,查询通路ko05222通路,注意ko必须小写。

值得注意的是KEGG中两种代谢图:reference pathway,根据已有的知识绘制的、概括的具有一般参考意义的代谢图。为白色小框,在KEGG中名字以map开头,比如map00010; species-specific pathway,绿色小框为该物种特有的基因或酶。KEGG中名字为特定物种种属英文缩写,比如酵母的糖酵解通路图,sce00010。

STEP 2:

KO(KEGG Orthology)是KEGG中的一个专有名词,它是蛋白质(酶)的一个分类体系,将序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,如上图ko00010。

2

KEGG BRITE层级分类查找

KEGG BRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。进入BRITE查找页面,输入基因cytB,查找内容显示如下。

3

KEGG MODULE数据库

KEGG MODULE是一个人工定义的功能单元的集合。被用于已测序基因组的注释和生物学上的解释。各个模块使用M开头的编号及与其对应的一系列K开头的编号来表示。主要有以下四种模块:

(1)通路模块:代表在KEGG代谢通路图中的复杂功能单元,例如M00002(糖酵解,与三碳化合物相关的核心模块);

(2)结构复合物:通常形成分子机制,例如M00072(寡糖转移酶);

(3)功能集:基本单元的其他形式,例如M00360(氨酰基-tRNA合酶,原核生物);

(4)特征模块:作为某种表型的标记,例如M00363(肠出血性大肠杆菌致病性特征,志贺毒素)。

例如查找DNA polymerase,得到如下模块结果。

4

查找基因组或宏基因组注释信息

查找基因注释归类到的K编号。在此我们必须明确K和基因的关系,K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。

5

在线提交序列注释

KEGG提供了在线序列注释窗口,有两种方法:BlastKOALA(BLASTP比对)、GhostKOALA(GHOSTX比对),以BlastKOALA为例说明。

单击BlastKOALA,进入序列提交界面,提交fasta格式序列,同时根据实际情况填写要本信息以及邮箱。在邮件中确认任务,注释结果会以邮件的形式反馈。

各位小伙伴们,对KEGG数据库的使用有新的理解了吗?

文案 微生物基因组

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180412G1B4LN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券