15
前情提要
基因组序列注释是基因组学功能研究的重要方面,高效、快速的利用KEGG数据库查找感兴趣的注释信息是基因研究中的重要手段。KEGG全称Kyoto Encyclopedia of Genes and Genome(京都基因及基因组百科全书),是由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立。
KEGG包含四大数据库:
基因组信息数据库,包括完整和部分测序的基因组序列(KEGGGene);
功能信息数据库,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息(KEGGPathway);
化学物质、酶分子、酶反应等信息数据库(KEGGLigand);
各种生物之间的层次关系数据库(KEGGBrite)。
此外,通过与世界上其它一些大型生物信息学数据库的连接,KEGG可以为研究者提供更为丰富的生物学信息(LinkDB)。KEGG建立了KEGG直系同源系统(the KEGG Orthology (KO) system),这个系统通过把分子网络的相关信息连接到基因组中,从而发展和促进了跨物种注释流程。
那么,如何应用KEGG数据库快速查找到自己想要的信息呢?且听小编慢慢道来。
01
PATHWAY查找
STEP 1:
首先通过网址http://www.genome.jp/kegg/进入KEGG网址首页,单击PATHWAY,查询通路ko05222通路,注意ko必须小写。
值得注意的是KEGG中两种代谢图:reference pathway,根据已有的知识绘制的、概括的具有一般参考意义的代谢图。为白色小框,在KEGG中名字以map开头,比如map00010; species-specific pathway,绿色小框为该物种特有的基因或酶。KEGG中名字为特定物种种属英文缩写,比如酵母的糖酵解通路图,sce00010。
STEP 2:
KO(KEGG Orthology)是KEGG中的一个专有名词,它是蛋白质(酶)的一个分类体系,将序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,如上图ko00010。
2
KEGG BRITE层级分类查找
KEGG BRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。进入BRITE查找页面,输入基因cytB,查找内容显示如下。
3
KEGG MODULE数据库
KEGG MODULE是一个人工定义的功能单元的集合。被用于已测序基因组的注释和生物学上的解释。各个模块使用M开头的编号及与其对应的一系列K开头的编号来表示。主要有以下四种模块:
(1)通路模块:代表在KEGG代谢通路图中的复杂功能单元,例如M00002(糖酵解,与三碳化合物相关的核心模块);
(2)结构复合物:通常形成分子机制,例如M00072(寡糖转移酶);
(3)功能集:基本单元的其他形式,例如M00360(氨酰基-tRNA合酶,原核生物);
(4)特征模块:作为某种表型的标记,例如M00363(肠出血性大肠杆菌致病性特征,志贺毒素)。
例如查找DNA polymerase,得到如下模块结果。
4
查找基因组或宏基因组注释信息
查找基因注释归类到的K编号。在此我们必须明确K和基因的关系,K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
5
在线提交序列注释
KEGG提供了在线序列注释窗口,有两种方法:BlastKOALA(BLASTP比对)、GhostKOALA(GHOSTX比对),以BlastKOALA为例说明。
单击BlastKOALA,进入序列提交界面,提交fasta格式序列,同时根据实际情况填写要本信息以及邮箱。在邮件中确认任务,注释结果会以邮件的形式反馈。
各位小伙伴们,对KEGG数据库的使用有新的理解了吗?
文案 微生物基因组
领取专属 10元无门槛券
私享最新 技术干货