kegg orthology 数据库是 kegg 的核心,利用基因在不同物种之间的保守性,使得我们可以在更高层次上解读基因功能。 pathway, brite, module 等数据库都是建立在KO 数据库的基础之上的,所以任何基因组的数据都可以映射到这些数据库中去。当然这种方法有其局限性,在一定程度上忽略了特定物种内基因的变异信息。
network 数据库针对human ,除了提供了基因的功能和相互作用以外,还把基因的变异信息包含进来,更进一步与疾病相关联。
上面是kegg 官网提供的示意图,KO 建立在不同物种的gene具有同源性的基础上,而pathway 利用KO注释信息,提供了跨物种的通路信息,而network 数据库从pathway数据库延伸而来,在pathway 的基础上,将基因的变异信息(包括SNP, 基因融合等结构变异现象和基因表达量的变化现象)也包括了进来,对于人类基因相关变异与疾病的研究,提供了更为细致的参考信息。
network 数据库中的每条记录叫做network element, 以N Number 唯一标识, 里面记录的是基因之间的相互作用的网络,由于network 来源于pathway 数据库,所以每条记录都会有对应的pathway信息,在这些通路图中,会将基因进行特殊标记,比如下图为 N0002
对应的 hsa05220 通路
在上图中,粉色标记的方框为network 中记录的基因,而粉色方框中用红色显示的则是发生变异的基因;
对于N0002
这条记录来说
Defiinition 字段记录了基因间相互作用信息,其中的ABL基因发生了变异,产生了BCR-ABL 融合基因,导致出现了疾病。结合上面的通路图来一起理解,可以看到BCR-ABL 在通路图中是粉色方框,红色字体的标记方式,其他有记录的基因则是只有粉色方框的标记;
在network 中,将所有的记录分成3大类
在下面的链接中,可以看到
http://www.kegg.jp/kegg-bin/show_network?id=nt06201&cancer=1
第一列为对应的network 数据库中的记录;第二列各种颜色的小方块代表该network相关的疾病,不同疾病用不同的颜色标识;其他列为该network中记录的基因间相互作用,其中绿色代表的就是reference, 红色代表的是variant, 粉色代表的是virus。
我们可以看到reference network都没有相关的疾病信息,只有variant和virus 可以看到相关的疾病信息。
红色的链接可以关联到variant的详细信息,比如EGF*
代表的具体变异信息为1950v1, 代表了EGF基因的过表达;粉色的链接关联到KO数据库,提供了该基因功能的具体信息,比如vK1
是一种病毒的基因;
reference network
, 直接从pathway中提取的基因的相互作用; variant network
, 包含了基因的变异信息,包括结构变异和表达量变异; virus network
, 包含了入侵机体的病毒基因信息。对于variant和virus network, 还会给出相关的疾病信息;