前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >宏基因组分析环境搭建

宏基因组分析环境搭建

作者头像
生信喵实验柴
发布2023-02-24 13:12:28
1.2K0
发布2023-02-24 13:12:28
举报
文章被收录于专栏:生信喵实验柴

一、安装软件

代码语言:javascript
复制
#创建meta虚拟环境
conda create -n meta -y
conda activate meta
conda install -y fastqc
conda install -y multiqc
conda install -y fastp
conda install -y seqkit
conda install -y bwa
conda install -y bwa-mem2
conda install -y kraken2
conda install -y minimap2

二、宏基因组数据库

2.1 NCBI 物种分类 taxonomy 数据库

NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。

数据库地址:

代码语言:javascript
复制
https://www.ncbi.nlm.nih.gov/taxonomy

数据下载地址:

代码语言:javascript
复制
https://ftp.ncbi.nih.gov/pub/taxonomy/

NCBI 物种分类数据库统计

2.2 nt/nr 库

nt 库:NT(Nucleotide Sequence Database),核酸序列数据库,包含所有已测序基因组序列,以及各种测序片段的序列。里面的数据是冗余的,比如同样一个物种,每测序一次,就添加一次,随着测序测序数据越来越多,nt 也越来越大。

nr 库:Non-Redundant Protein Sequence Database,非冗余蛋白库,包括 GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq 等库。

下载地址:

代码语言:javascript
复制
https://ftp.ncbi.nih.gov/blast/db/
代码语言:javascript
复制
#nt 库下载:
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz
#nr 库下载:
wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz

2.3 Refseq 数据库:

RefSeq 数据库:the reference sequence database,参考序列数据库,是经过 NCBI 和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。RefSeq 数据库和 GenBank 数据库的区别在于:GenBank 是一个开放的数据库,对每个基因都含有许多序列。genbank 的数据可能重复或者不准。而 RefSeq 数据库是 NCBI提供的校正的序列数据和相关的信息。

refseq 网址:

代码语言:javascript
复制
https://www.ncbi.nlm.nih.gov/refseq/

下载地址:

代码语言:javascript
复制
https://ftp.ncbi.nih.gov/refseq/release/

2.4 GTDB

GTDB:Genome Taxonomy Database,基因组分类数据库,是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。

数据库主页:

代码语言:javascript
复制
http://gtdb.ecogenomic.org/

可以使用工具 GTDB-Tk 来基于该数据库对未知基因组进行分类。

2.5 EBI MGNify

以前是 EBI Metagenomics,欧洲分子生物学中心 EBI 下属机构。提供了一个免费使用的平台,用于组装,分析和归档源自特定环境中存在的微生物种群的测序的微生物组数据。

代码语言:javascript
复制
https://www.ebi.ac.uk/ena
https://www.ebi.ac.uk/metagenomics/

2.6 功能注释数据库

代码语言:javascript
复制
UniProtKB:https://www.uniprot.org/
Gene Ontology:http://www.geneontology.org/
CARD 数据库:https://card.mcmaster.ca/
KEGG 数据库:https://www.kegg.jp
COG 数据库:https://www.ncbi.nlm.nih.gov/COG/
CAZy 数据库:http://www.cazy.org/

三、下载数据库

代码语言:javascript
复制
#方法1 物种分类数据库
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nih.gov:pub/taxonomy/ ./

#方法2 国家微生物科学中心
lftp ftp://download.nmdc.cn/
ls
mirror taxonomy

#nt库与nr库也可以通过aspera下载
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nr.gz ./
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/FASTA/nt.gz ./
#下载建好库的nt和nr
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/nt.{00..75}.tar.gz ./
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/nr.{00..63}.tar.gz ./

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档