前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Circlator环化Ecoli基因组组装结果

使用Circlator环化Ecoli基因组组装结果

作者头像
用户7010445
发布2020-03-03 14:51:51
2K0
发布2020-03-03 14:51:51
举报
原文地址

PacBio reads:Assembly with command line tools

Circlator安装

看了看Circlator官网的安装教程,稍显麻烦,就不花时间在安装软件上了,直接使用conda安装

代码语言:javascript
复制
conda search circlator
conda install circlator

###教程中还用到了emboss工具包,也同时使用conda安装
conda install emboss
Ecoli PacBio测序数据下载

使用canu官方教程中的数据 Canu Quick start

代码语言:javascript
复制
wget http://gembox.cbcb.umd.edu/mhap/raw/ecoli_p6_25x.filtered.fastq
mv ecoli_p6_25x.filtered.fastq pacbio.fastq
组装
代码语言:javascript
复制
time canu -p canu -d canu_outdir genomeSize=4.8m -pacbio-raw pacbio.fastq

-p 输出文件文件名的前缀 -d 输出文件夹的名字 -genomeSize 组装基因组的大小 only has to be approximate -pacbio-raw 测序数据为PacBio;或者可以选nanopore-raw

如果组装结果中包含多条contigs,可以加上额外的灵敏的参数重新运行canu

代码语言:javascript
复制
canu -p prefix -d outdir corMhapSensitivity=high corMinCoverage=0 genomeSize=4.8m -pacbio-raw pacbio.fastq.gz
输出结果

canu.contigs.fasta 组装结果 canu.unassembled.fasta 没有被用于组装的reads canu.correctedReads.fasta.gz 用于组装的经过矫正的reads canu.file.gfa the graph of the assembly.

image.png

使用circlator环化基因组
代码语言:javascript
复制
circlator all --verbose canu_outdir/canu.contigs.fasta canu_outdir/canu.correctedReads.fasta.gz circlator_outdir

--verbose将软件运行的过程信息输出到屏幕上 canu_outdir/canu.contigs.fasta canu组装结果的路径 canu_outdir/canu.correctedReads.fasta.gz canu矫正后的reads的路径 circlator_outdir输出结果存放路径

运行结果

image.png

查看是否环化

代码语言:javascript
复制
less -S 04.merge.circularise_details.log
##最后一行
Circularized: yes

最终结果06.fixstart.fasta

建议:

options if all the contigs have not circularised with Circlator, an option is to change the --b2r_length_cutoff setting to approximately 2X the average read depth.(这句话的意思还没有太理解)

samtools提取没有比对到参考基因组的reads
代码语言:javascript
复制
samtools index aln.bam
samtools fastq -f 4 -l unmapped.R1.fastq -2 unmapped.R2.fastq -s unmapped.RS.fastq aln.bam

fastq bam转换为fastq -f 4输出没有比对上的reads -1 -2 -s单个没有比对上的reads

samtools根据fasta序列名字提取序列
代码语言:javascript
复制
samtools faidx contigs.fasta
samtools faidx input.fasta seq_name > output.fasta

还有两部分内容

使用blast确定某条序列是否两端可以overlap
使用二代测序数据矫正PacBio组装结果

参考文献

  • 1 Pacbio reads: assembly with command line tools
  • 2 canu quica start
  • 3 使用Canu对三代测序进行基因组组装
  • 4 生信小白组装学习系列:初识Canu与其组装实战训练(3)
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 还有两部分内容
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档