前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >宏基因组功能注释(以COG为例)

宏基因组功能注释(以COG为例)

作者头像
生信菜鸟团
发布2021-04-29 11:38:26
发布2021-04-29 11:38:26
3.7K00
代码可运行
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团
运行总次数:0
代码可运行

Contigs/Scaffolds序列经基因预测、ORF开放阅读框识别(Open Reading fr ame)和蛋白翻译之后,就可以进行功能注释分析了。我们将基因/蛋白序列在特定的数据库中搜索比对,从而完成功能注释分析。常用的功能数据库主要包括KEGG、EggNOG、GO、COG和CAZy等。

功能注释就是我们拿到翻译的蛋白之后,与不同的功能(蛋白)数据库进行对比。至于选择哪种数据库要看研究者的目的以及数据条件(如真核还是原核)。我们选择COG数据库,原因是目前单位还没有相应的流程,在一步步的操作中有助于我们的理解。

COG是干嘛的

COG,即Clusters of Orthologous Groups of proteins。可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另

COG注释作用:1. 通过已知蛋白对未知序列进行功能注释;2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在;3. 每个COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。当然,这里我们说的是第一种作用。

NCBI COG的数据库主要更新历史

从 1997 年 第一个公布版本,7个完整基因组,720个COG分类, 包含原核基因组和单细胞真核基因组(酵母),2003 年和2014 年进行了版本升级,最后只保留了细菌和古菌,包含了711个基因组以及4,631个COG分类, 26个功能分类。 2013 年构建真核分支COG(KOG, Eukaryotic orthologous groups); 2007 年构建古菌分支COG(arCOG, Archaeal Clusters of Orthologous Genes),2012 年和2014 年arCOG进一步升级,arCOG比较适合用于古菌基因组注释; 2011 年构建Phage分支COG(POG,phage orthologous groups),2013 年进行了升级;

由于计算资源需求,NCBI COG 构建了不同系统分类分支的COG簇,比如arCOG,KOG, POG等,推荐使用这些分支对新测序基因组进行注释,其实eggNOG 尤其是4.x版本也使用了clade特异的聚类模式。

其实,eggNOG(版本 4.5.1+) 数据库对 NCBI COG 进行扩展,并包含了真核生物信息, 版本 3.0 被广泛应用于(元)基因组数据分析, 另外一个类似数据是 STRING (版本 10.0) 也可以实现COG/KOG的功能注释,主要特色是蛋白质相互作用注释,eggNOG 升级到了 4.0 以后提供基于HMM隐马尔可夫谱的分析,并提供了更细致的 OG 分析,可根据物种所属的clade选择参考数据集,可以有效的降低计算量,另一个特色就是提供了 GO以及其它注释信息(KEGG/COG/SMART)关联分析。

从2003年至2014年NCBI COG一直未更新,EMBL EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)继承了NCBI COG的衣钵,极大的扩展了基因组信息。5.0 版本, 把包含了 5090 个基因组, 其中 2502 病毒基因组, 4.4M 个直系同源家族。如果做了eggNOG功能注释还有必要做COG注释吗?

eggNOG 数据库包含了丰富的注释信息,除了COG/KOG/NOG的分类和注释信息外,还包含了KEGG/GO/SMART/PFAM信息。

新版本的EggNOG 还提供了自动化注释工具eggnog-mapper,可很方便的完成基因组的功能注释,注释信息可以关联COG/KOG/KEGG/GO/BiGG等。

怎样注释的

既然EggNOG数据库比COG数据库更新更全面,那我们还讲COG干嘛?要知道,COG老是老了一点,那是人家经典。而且目前两者都可以用同一种比对软件来注释,所以不影响阅读。序列决定结构,结构决定功能。功能注释本质是目标蛋白序列同功能蛋白序列数据库的比对过程。

宏基因组数据比对神器 DIAMOND(double index alignment of next-generation sequencing data))

2015年nature methods上发布了一款新的比对软件DIAMOND,是一款新的用于短DNA测序reads与蛋白参考数据库比对的工具。以Illumina的100~150 bp的reads为例,在快速模式下,DIAMOND比对速度比BLASTX要快20,000倍,可以报告BLASTX发现的80-90%的比对数据,e-value至多为1e-5。如果使用灵敏模式,DIAMOND的比对速度也要比BLASTX快2,500倍,可以报告超过94%的比对数据。

1)使用DIAMOND软件将 Unigenes 与各功能数据库进行比对(blastp,evalue ≤ 1e-5) 2)比对结果过滤:对于每一条序列的 比对结果,选取 score 最高的比对结果(one HSP > 60 bits)进行后续分析

Function/DIAMOND/diamond blastp -q Unigenes_50.fa -d database/COG/cog_clean.fa -t COG/blastout -p 4 -e 1e-5 -k 50 --sensitive -o Unigenes_50.fa.m8

  • double indexing
  • spaced seeds

比对结果,m8格式12列对应的含义依次是:

代码语言:javascript
代码运行次数:0
运行
复制
  Query id:查询序列ID标识
  Subject id:比对上的目标序列ID标识
  % identity:序列比对的一致性百分比
  alignment length:符合比对的比对区域的长度
  mismatches:比对区域的错配数
  gap openings:比对区域的gap数目
  q. start:比对区域在查询序列(Query id)上的起始位点
  q. end:比对区域在查询序列(Query id)上的终止位点
  s. start:比对区域在目标序列(Subject id)上的起始位点
  s. end:比对区域在目标序列(Subject id)上的终止位点
  e-value:比对结果的期望值,解释是大概多少次随机比对才能出现一次这个score,Evalue越小,表明这种情况,从概率上越不可能发生,但是现在发生了,所以这个比对具有很重要的意义
  bit score:比对结果的bit score值

功能层级:

代码语言:javascript
代码运行次数:0
运行
复制
INFORMATION STORAGE AND PROCESSING
 [J] Translation, ribosomal structure and biogenesis 
 [A] RNA processing and modification 
 [K] Transcription 
 [L] Replication, recombination and repair 
 [B] Chromatin structure and dynamics 

CELLULAR PROCESSES AND SIGNALING
 [D] Cell cycle control, cell division, chromosome partitioning 
 [Y] Nuclear structure 
 [V] Defense mechanisms 
 [T] Signal transduction mechanisms 
 [M] Cell wall/membrane/envelope biogenesis 
 [N] Cell motility 
 [Z] Cytoskeleton 
 [W] Extracellular structures 
 [U] Intracellular trafficking, secretion, and vesicular transport 
 [O] Posttranslational modification, protein turnover, chaperones 
 [X] Mobilome: prophages, transposons

METABOLISM
 [C] Energy production and conversion 
 [G] Carbohydrate transport and metabolism 
 [E] Amino acid transport and metabolism 
 [F] Nucleotide transport and metabolism 
 [H] Coenzyme transport and metabolism 
 [I] Lipid transport and metabolism 
 [P] Inorganic ion transport and metabolism 
 [Q] Secondary metabolites biosynthesis, transport and catabolism 

POORLY CHARACTERIZED
 [R] General function prediction only 
 [S] Function unknown 

筛选后blast m8结果

筛选后blast结果的注释信息

3)从比对结果出发,统计不同功能层级的相对丰度(各功能层级的相对丰度等于注释为该功能层级的基因的相对丰度之和),其中,KEGG 数据库划分为 5 个层级,eggNOG 数据库划分为 3 个层级,CAZy 数据库划分为 3 个层级,各数据库的详细划分层级如下所示:

4)从功能注释结果及基因丰度表出发,获得各个样品在各个分类层级上的基因数目表,对于某个功能在某个样品中的基因数目,等于在注释为该功能的基因中,丰度不为 0 的基因数目;

说明 横坐标表示COG功能类型,纵坐标表示注释上的基因个

5)从各个分类层级上的丰度表出发,进行注释基因数目统计,相对丰度概况展示,丰度聚类热图展示,PCA和NMDS降维分析,基于功能丰度的Anosim组间(内)差异分析,代谢通路比较分析,组间功能差异的Metastat和LEfSe分析。

原文搬运自简书:周运来就是我 ,更新了部分内容;更多可见链接:https://www.jianshu.com/p/f4060461c951

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • COG是干嘛的
    • NCBI COG的数据库主要更新历史
  • 怎样注释的
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档