前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >宏基因组基因功能注释

宏基因组基因功能注释

作者头像
生信喵实验柴
发布2023-02-24 13:21:55
1.5K0
发布2023-02-24 13:21:55
举报
文章被收录于专栏:生信喵实验柴

前言

此部分内容,均为《基因学苑》公众号付费资源的学习笔记。

一、eggnog-mapper简介

拼接完的宏基因组序列,进行基因预测,去冗余,最终得到宏基因组测序的基因组。那么这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者为同源基因,执行相同的功能。宏基因组中通常包括很多新发现的基因,无法比对上已知数据库。所以,在宏基因组研究中,一部分或者大部分基因无法注释得到功能属于正常现象。

这里我们使用 eggnog-mapper 工具来进行基因功能注释。eggnog-mapper 是一个非常方便的基因功能注释流程 。可以自动化完成基因功能注释工作,其内置了COG/KOG/KEGG/GO/BiGG 等数据库,也可以自行创建注释数据库。

eggnog-mapper 在不同的系统分类水平都进行了构建直系同源簇,当前使用的 eggNOG v5.0 版本数据库,包含 5,090 代表性的基因组,其中包括 4445 个细菌,168 古细菌,477个真核生物以及 2502 个病毒。当前 v2 版本的 eggnog-mapper,不在支持 hmmer 比对。

二、软件安装

网址:https://github.com/eggnogdb/eggnog-mapper

在线版本:http://eggnog-mapper.embl.de/

文档:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2

代码语言:javascript
复制
#安装eggnog-emapper
conda create -n eggnog-mapper python=2.7
conda activate eggnog-mapper
conda install -c bioconda -y eggnog-mapper 
mkdir eggnog_database
cd eggnog_database
#镜像数据下载
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog.db.gz
axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog_proteins.dmnd.gz
#基因功能注释
diamond --version
        diamond version 0.8.22 #diamond提示数据库版本不对,就安装2.0.13版本
conda install diamond=2.0.13

三、软件使用

代码语言:javascript
复制
emapper.py -i mg.filter.faa --output annotation -m diamond --data_dir eggnog_database

选项参数:

-i: 输入文件,最好是基因的氨基酸文件

-o: 输出结果前缀

-m: 使用 HMMER 策略还是 DIAMOND 策略,默认使用 HMMER,新版本只支持 diamond

--cpu:使用的线程数

--translate:如使用的核酸序列,选择 HMMER 策略时需要先翻译成氨基酸序列

--usemem:将 emapper.db 读入内存

--output_dir:输出结果文件夹

--report_orthologs:列出所有进行功能转移的直系同源基因

--no_annot: 只汇总鉴定的最佳 seed 序列以及相应的 E 值和 Bitscore 值

--no_search:可直接基于--no_annot 的结果进行后续功能注释

--target_orthologs: one2one,many2one,one2many,many2many,all 可选。

--data_dir: 数据库目录

--tax_scope: 指定选择的直系同源基因的物种分类范围,默认为自动判断。

四、结果解读

最终会生成两个文件,分别是 mg.emapper.annotations 和 mg.emapper.seed_orthologs

第一列:查询序列名称;

第二列:eggNOG 种子序列;

第三列:eggNOG 种子序列 evalue;

第四列:eggNOG 种子序列 bit score;

第五列:预测基因名称;

第六列:GO_terms, 预测的 GO,分号分隔;

第七列:KEGG_KO: 预测的 KO,分号分隔;

第八列:BiGG_Reactions: BiGG 代谢反应预测,分号分隔;

第九列:eggNOG Taxonomic Scope 信息;

第十列:匹配的 OGs;

第十一列:best_OG|evalue|score: Best matching Orthologous Groups (only in HMM mode)

第十二列:COG 功能分类;

第十三列:eggNOG 功能描述;

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档