前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >centrifuge软件以及数据库

centrifuge软件以及数据库

作者头像
生信喵实验柴
发布2023-02-24 13:13:36
1.4K0
发布2023-02-24 13:13:36
举报
文章被收录于专栏:生信喵实验柴

一、纳米孔测序在宏基因组中的应用

基于鸟枪法(Shotgun Sequencing)的高通量测序已经走过 10 多年,在宏基因组领域的应用也超过 10 年,在这 10 多年里,基于二代测序高通量的特性,在宏基因组,16S 测序中已经取得了非常大的进展。然而,二代测序读长短、建库周期长、无法实时测序等技术特点,依然限制了宏基因组数据分析的发展。尤其是读长短,只有不到 2X300bp,比对唯一性差,会造成一对多的比对,并且短读长无法得到好的拼接效果,无法直接从宏基因组中拼接出完整细菌基因组等。而这些技术缺点,通过新一代的纳米孔测序可以很好的解决,纳米孔诸多的优点为宏基因组研究带来了新的突破,下面我们来总结一下 nanopore 测序技术在宏基因组中的应用。

1、在采样点直接测序分析

2、病原微生物快速鉴定

3、耐药基因识别

4、长读长具有更高的准确性

5、基因组中拼接细菌完成图

二、Centrifuge 软件配置

2.1 centrifuge 简介

Centrifuge 是一款快速有效的宏基因组物种组成分类的软件,采用了结合 BWT 变换(Burrows-Wheeler transform,BWT)和 FM 索引(Ferragina-Manzini ,FM)的策略对序列分类进行优化,通过基因组压缩策略有效降低了内存的需求,因此可以处理 NT 库级别的库索引。Centrifuge 为 Johns Hopkins University CCB(The Center for Computational Biology)出品, 采用的软件架构和 bowtie2、hisat2 等还是比较类似,命令行接口也类似,学习成本比较低。Centrifuge 目前是纳米孔官方分析平台 EPI2ME 中 WIMP 模块采用的软件。

Centrifuge 允许一条序列可以有多个 taxonomy 标签,并允许通过设置阈值将多个 hits 回归到 LCA 模式,针对 multi-hit 模式,通过 EM 算法可以进行丰度定量。centrifuge-kreport 提供了将 Centrifuge 的结果转换成 Kraken 风格的结果。

官网以及github主页如下:

代码语言:javascript
复制
http://www.ccb.jhu.edu/software/centrifuge/
https://github.com/infphilo/centrifuge

2.2 下载公共数据库索引

centrifuge 的数据库建库比较麻烦,所以可以选择一些公共数据库。Genexa 公司官方网站为我们提供了建立好的数据库。直接下载就可以使用。

h+v+c: 人基因组+病毒基因组+106 SARS-CoV-2 基因组,

h+p+v+c: 人基因组+细菌基因组+病毒基因组+106 SARS-CoV-2 基因组

当前库版本 p+h+v(Bacteria,Viruses, Human),大小 13G, 包含了 28718 条核酸序列,14871 个 NCBI Taxonomy 节点,8382 species , NT 库 77G 大小, 包含了 39648092 条核酸序列,1028487 个物种信息。

下载已有数据

h+v+c: 人基因组+病毒基因组+106 SARS-CoV-2 基因组

代码语言:javascript
复制
https://zenodo.org/record/3732127/files/h+v+c.tar.gz?download=1

h+p+v+c: 人基因组+细菌基因组+病毒基因组+106 SARS-CoV-2 基因组

代码语言:javascript
复制
https://zenodo.org/record/3732127/files/h+p+v+c.tar.gz?download=1

2.3 建立自己的索引

1、NCBI refseq 数据库

如果想要自行建库也可以,首先下载 NCBI ref 数据库,例如全部细菌基因组,古细菌基因组以及病毒基因组,以及物种分类数据库 taxonomy,如果要比对宿主,也可以添加人或者小鼠全基因组。友情提示:网速一定要好,否则很难成功。

代码语言:javascript
复制
#下载 ncbi 数据库
./centrifuge-download -o taxonomy taxonomy
#下载 refseq 细菌(17927),古细菌(366)以及病毒基因组()
centrifuge-download -o library -m -d "archaea,bacteria,viral" refseq > seqid2taxid.map
#加入人以及小鼠基因组
centrifuge-download -o library -d "vertebrate_mammalian" -a "Chromosome" -t 9606,10090 -c 'reference genome' >> seqid2taxid.map
#合并数据
cat library/*/*.fna > input-sequences.fna
#建立索引
centrifuge-build -p 4 --conversion-table seqid2taxid.map --taxonomy-tree taxonomy/nodes.dmp --name-table taxonomy/names.dmp input-sequences.fna abv

2、使用 nt 库索引

nt 库包含全部测序序列,内容比较全,但是缺点是数据量太大,无论是建立索引还是比对都比较耗时。

代码语言:javascript
复制
#nt库创建索引
zcat nucl_gb.accession2taxid.gz | awk '{print $2"\t"$3}' >acc_to_tid.dmp
python2 /ifs1/Software/biosoft/centrifuge/centrifuge-build --conversion-table acc_to_tid.dmp --taxonomy-tree nodes.dmp --name-table names.dmp nt nt

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档