前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >velvet软件进行基因组组装

velvet软件进行基因组组装

作者头像
生信修炼手册
发布2020-05-08 16:28:26
1.5K0
发布2020-05-08 16:28:26
举报
文章被收录于专栏:生信修炼手册

欢迎关注"生信修炼手册"!

velvet是由EMBL-EBI开发的一款基因组组装工具,官网如下

https://www.ebi.ac.uk/~zerbino/velvet/

安装过程如下

代码语言:javascript
复制
wget https://www.ebi.ac.uk/~zerbino/velvet/velvet_1.2.10.tgz
tar xzvf velvet_1.2.10.tgz
cd velvet_1.2.10/
make 'MAXKMERLENGTH=127'

默认情况下,velvet支持的kmer最大长度为31bp, 如果想要只会更大长度的kmer,在编译时需要设置MAXKMERLENGTH的值。编译完成后,会生成如下两个可执行文件

  1. velveth
  2. velvetg

软件的运行过程对应的也分成两步

1. velveth

用法如下

代码语言:javascript
复制
velveth Assem 31 -shortPaired -fasta -separate left.fa right.fa

第一个参数Assem, 代表输出结果的目录;shortPaired指定测序类型,fasta指定输入的序列格式。

对于二代测序平台的数据,常用的测序类型包括以下两种情况

  1. short
  2. shortPaired

short用于单独数据,shortPaired用于双端数据。输入的序列文件支持以下格式:

  1. fasta/fasta.gz
  2. fastq/fastq.gz
  3. sam/bam

通过不同的参数指定输入文件的格式,-fasta对应fasta格式;-fastq对应fastq格式,-fastq.gz对应fastq.gz格式,-fasta.gz对应fasta.gz格式,-sam对应sam格式,-bam对应bam格式。

对于双端数据,有以下两种格式

  1. interleaved
  2. separate

R1和R2端序列保存在两个文件中,就是separate格式;interleaved是双端序列的一种格式,R1端和R2端的序列保存在一个文件当中,每一条序列的R1端之后紧跟着就是R2端序列;对于双端测序,默认是interleaved格式,如果是separate格式,要显示的声明。

还需要注意的一个用法就是kmer长度,在实际分析时,通常会采用一系列的kmer长度分别组装,然后挑选一个最佳的结果。velvet 的kmer参数可以设置为一个梯度,示例如下

代码语言:javascript
复制
velveth Assem 31,37,2 -shortPaired -fasta -separate left.fa right.fa

上述用法中的31,37,2表示从kmer=31开始组装,然后进行递增,步长为2,依次进行33, 35, 37共4个kmer长度的组装。这样的参数设计非常的贴合实际需求。

运行结束后,会在输出目录生成以下文件

  1. Sequences
  2. Roadmaps
2. velvetg

基本用法如下

代码语言:javascript
复制
velvetg Assembly/ -min_contig_lgth 100

第一个参数为上一步的输出目录,min_contig_lgth代表contig的最小长度,小于该长度的contig会被删除,不会出现在最终的结果中。更多的参数和用法请参考官方手册。

运行结束后,输出目录下的contigs.fa就是最终的组装结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. velveth
  • 2. velvetg
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档