前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >COG:直系同源蛋白数据库

COG:直系同源蛋白数据库

作者头像
生信修炼手册
发布2020-05-08 16:34:06
发布2020-05-08 16:34:06
3.1K10
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

欢迎关注”生信修炼手册”!

为了研究不同物种间保守的蛋白功能,进一步揭示其进化关系,1997年的时候科学家选取了七个完整基因组的蛋白序列,根据序列和功能相似性,将这些蛋白进行了分类。这个分类叫做cluster of orthologous group,简称COG。每个COG是一组同源蛋白的集合,具有相同的生物学功能。 官网如下

https://www.ncbi.nlm.nih.gov/COG/

构建原始的COG使用的蛋白序列来自以下7个物种

  1. E.coli
  2. H.influenzae
  3. M. genitalium
  4. M. pneumoniae
  5. Synechocystis sp.
  6. M. jannaschii
  7. S. cerevisiae

可以发现,这些物种都是细菌。所以COG这个概念指的是细菌中的同源蛋白。

随着测序技术的发展,越来越多的物种拥有了完整的基因组序列。2003年的时候,又根据66个细菌物种的蛋白序列,对之前的COG结果进行了补充和拓展。

同时将orthologous group 的概念推广到了真核生物中,根据7个真核生物的蛋白序列构建了真核生物中的同源蛋白簇, 全称为eukaryotic orthologous groups, 简称KOG。

之后又陆续在不同类型的物种中建立起相关的同源蛋白簇。古菌中的同源蛋白簇简称为arCOG, 噬菌体中的同源蛋白簇简称为POG,感染真核生物的病毒中的同源蛋白簇简称为NCVOG,巨型病毒的同源蛋白簇简称为mimiCOG。

在官网上,提供了下载功能。这里以COG为例进行说明。FTP地址如下

ftp://ftp.ncbi.nih.gov/pub/COG/COG2014/data

fun2003-2014.tab 保存了COG的分类信息,将所有的COG的功能分为了以下26个类别,每个类别用一个字母表示

代码语言:javascript
代码运行次数:0
运行
复制
# Code    Name
J    Translation, ribosomal structure and biogenesis
A    RNA processing and modification
K    Transcription
L    Replication, recombination and repair
B    Chromatin structure and dynamics
D    Cell cycle control, cell division, chromosome partitioning
Y    Nuclear structure
V    Defense mechanisms
T    Signal transduction mechanisms
M    Cell wall/membrane/envelope biogenesis
N    Cell motility
Z    Cytoskeleton
W    Extracellular structures
U    Intracellular trafficking, secretion, and vesicular transport
O    Posttranslational modification, protein turnover, chaperones
X    Mobilome: prophages, transposons
C    Energy production and conversion
G    Carbohydrate transport and metabolism
E    Amino acid transport and metabolism
F    Nucleotide transport and metabolism
H    Coenzyme transport and metabolism
I    Lipid transport and metabolism
P    Inorganic ion transport and metabolism
Q    Secondary metabolites biosynthesis, transport and catabolism
R    General function prediction only
S    Function unknown

cognames2003-2014.tab 文件保存了COG的详细信息,包括编号,对应的分类,功能描述等信息。示例如下

代码语言:javascript
代码运行次数:0
运行
复制
# COG    func    name
COG0001    H    Glutamate-1-semialdehyde aminotransferase
COG0002    E    N-acetyl-gamma-glutamylphosphate reductase
COG0003    P    Anion-transporting ATPase, ArsA/GET3 family
COG0004    P    Ammonia channel protein AmtB

cog2003-2014.csv 文件保存了蛋白和COG的对应关系,示例如下

代码语言:javascript
代码运行次数:0
运行
复制
333894695,Alteromonas_SN2_uid67349,333894695,427,1,427,COG0001,0,

第一列编号为蛋白质的GI号。

prot2003-2014.fa.gz 保存了fasta格式的蛋白序列,示例如下

代码语言:javascript
代码运行次数:0
运行
复制
>gi|118430838|ref|NP_146899.2| putative mercury ion binding protein[Aeropyrum pernix K1]
MIIFKRHSQAILFSHNKQEKALLGIEGMHCEGCAIAIETALKNVKGIIDTKVNYSRGSAI
VTFDDTLVSINDILEHYIFKVPSNYRAKLVSFIS

通过比对COG数据库,可以确定蛋白质的功能。

END

喜欢

分享

or

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档