前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >二代测序宏基因组真实数据拼接

二代测序宏基因组真实数据拼接

作者头像
生信喵实验柴
发布2023-02-24 13:19:56
9670
发布2023-02-24 13:19:56
举报
文章被收录于专栏:生信喵实验柴

背景

前面我们模拟混合了几种细菌的数据拼接,本次带来的是文献《Complete and validated genomes from a metagenome》中的数据,步骤就是下载数据,开始拼接。

一、案例数据下载

从宏基因组测序中拼接细菌完成图,《Complete and validated genomes from a metagenome 》2012 年加拿大 Northern Alberta 油砂尾矿池 附近海藻细菌培养分离样品, 2019 年重新培养提取。

代码语言:javascript
复制
文献地址:https://www.biorxiv.org/content/10.1101/2020.04.08.032540v1
数据:https://www.ebi.ac.uk/ena/browser/view/PRJEB36155
脚本:https://zenodo.org/record/3745531#.Xw7hoBPitnJ

数据一般都在文章结尾的“Data availability ”部分,从中找到 BioProject 号或者 SRA 号即可。例如该文章中给出了数据的 BioProject 号为 PRJEB 36115。

代码语言:javascript
复制
数据下载(nanopore和illumina)
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR399/000/ERR3994080/ERR3994080_1.fastq.gz
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_1.fastq.gz
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_2.fastq.gz

二、利用 megahit 拼接

MEGAHIT是一个二代测序从头组装工具,用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。被誉为是宏基因组版本的 SOAPdenovo ,继承了 SOAPdenovo 快速,节省内存的优点。MEGAHIT 操作简单,运行速度非常快,这对于数据量和计算量大的宏基因组拼接非常重要。并且最重要的是, megahit 是超快的宏基因组序列 拼接中,还能得到非常好的拼接结果。在同类软件评估中, MEGAHIT 通常有着最少的计算时间和 N50 ,同时也拥有最低的嵌合体比例错误率;尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。与其他一些常用的二代宏基因组拼接软件 SPAdes 和IDBA UD 相比,计算时间和内存消耗方面优势非常明显。

代码语言:javascript
复制
官方主页:http://www.l3 bioinfo.com/products/megahit.html
github主页:https://github.com/voutcn/megahit
软件安装:conda install -y megahit

使用案例:

代码语言:javascript
复制
echo "time megahit -t 24 -o megahit/ -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>megahit.log 2>megahit.err" >megahit.sh
bsub -q fat -n 24 -o %J.log -e %J.err sh megahit.sh

选项参数

-1 reads 1

-2 reads 2

-o :数据文件夹

-h 显示参数详细

--k min 27 k max 191 k step 20 # 手动设置 kmer

-r 单端

-t 设置线程数,默认全用

--use gpu 支持 GPU 运算

--continue 支持中断继续运行

耗时1小时10分钟,结果:

代码语言:javascript
复制
total 270M
-rw-rw-r-- 1 xiehs xiehs  945 Dec 26 15:23 options.json
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 26 16:37 intermediate_contigs/
-rw-rw-r-- 1 xiehs xiehs 269M Dec 26 16:37 final.contigs.fa
-rw-rw-r-- 1 xiehs xiehs  166 Dec 26 16:37 checkpoints.txt
-rw-rw-r-- 1 xiehs xiehs    0 Dec 26 16:37 done
-rw-rw-r-- 1 xiehs xiehs 144K Dec 26 16:37 log
代码语言:javascript
复制
seqkit stat final.contigs.fa
file              format  type  num_seqs      sum_len  min_len  avg_len  max_len
final.contigs.fa  FASTA   DNA    170,308  275,083,965      200  1,615.2  481,000

可以用拼接后的结果,做centrifuge物种鉴定,因为序列长,较直接用fastq原read文件去做物种鉴定,会少掉最后一列的丰度信息。

三、metaSPAdes 拼接

spades是一款优秀的基因组拼接工具, SPAdes 是由俄罗斯科学院 St. Petersburg AcademicUniversity 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。该软件开发至今已经走过 1 0 多年的时间,目前依然在持续更新 。软件主要用于 illumina 测序数据拼接,支持多种类型 illumina 测序数据。并且支持 ion torrent 测序数据和 CCS 模式下的 pacbio 数据。此外,可以将二代测序短读长测序数据与三代长读长 pacbio和 nanopore 的测序数据 进行混合拼接。SPAdes 包含多个模块,特别针对二倍体,宏基因组,质粒, RNAseq 测序数据进行拼接。在二代测序宏基因组研究中使用比较广泛,相比于其他拼接软件,可以得到更好的结果,不过对计算机资源消耗较大,需要消耗更大的内存和计算时间。

代码语言:javascript
复制
软件官网:http://cab.spbu.ru/software/spades/
github主页:https://github.com/ablab/spades

使用案例:

代码语言:javascript
复制
which spades.py # 得到软件路径
echo "time python /share/home/xiehs/bin/spades.py -t 46 -o metaSPAdes/ --meta -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>spades.log 2>spades.err" >spades.sh
bsub -q fat -n 46 -o %J.log -e %J.err sh spades.sh

时间确实很长,跑了16个半小时才完成拼接。

代码语言:javascript
复制
real    987m35.910s
user    20374m16.109s
sys     1186m52.813s

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档