如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer。 如果目的是与相对较短的参考序列(如细菌基因组)非常灵敏的比对,可以使用Bowtie 2完成,但也可以考虑使用NUCmer,BLAT或BLAST等工具。当参考基因组很长时,这些工具可能会非常缓慢,但当参考基因组很短时通常就足够了。
这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装
conda install -y bowtie2
这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解
下载
http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
在Linux系统下将上述的链接下载到本地
sudo wget https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip
解压
unzip bowtie2-2.3.4.1-linux-x86_64.zip
设置环境变量
sudo vim /etc/environment
:
隔开,如下图
sudo source /etc/enviroment
单末端
"bowtie2 -p 10 -x genome_index -U input.fq | samtools sort -O bam -@ 10 -o - > output.bam
双末端
bowtie2 -p 10 -x genome_index -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam
需要注意的是:
|
传递到samtools,将sam转换为bam文件,省去中间sam文件的空间占用/data/ref/bowtie2/mm10
目录下,但是需要输入的参数为/data/ref/bowtie2/mm10/mm10
。最后一个mm10
指的是共用文件名。
参数 | 解释 |
---|---|
-x | 参考基因组索引的基名。基本名称是任何索引文件的名称,但不包括最终的.1.bt2/ .rev.1.bt2/等。bowtie2在当前目录中首先查找指定的索引,然后在BOWTIE2_INDEXES环境变量中指定的目录中查找。 |
-1 | 以逗号分隔的包含队友1的文件列表(文件名通常包含_1),例如-1 flyA_1.fq,flyB_1.fq。使用此选项指定的序列必须与文件中的文件和读取的文件一致<m2>。读数可能是不同长度的混合。如果-指定,bowtie2将从“标准输入”或“标准输入”文件句柄读取队友1。 |
-2 | 逗号分隔的包含队友2(文件名通常包括_2)的文件列表,例如-2 flyA_2.fq,flyB_2.fq。使用此选项指定的序列必须与文件中的文件和读取的文件一致<m1>。读数可能是不同长度的混合。如果-指定,bowtie2将从“标准输入”或“标准输入”文件句柄中读取队友2。 |
-U | 逗号分隔的包含未配对读取的文件列表要对齐,例如lane1.fq,lane2.fq,lane3.fq,lane4.fq。读数可能是不同长度的混合。如果-指定,bowtie2则从“标准输入”或“标准输入”文件句柄中读取数据。 |
-S | 将SAM对齐文件写入。默认情况下,对齐被写入“标准输出”或“标准输出”文件句柄(即控制台)。 |
参数 | 解释 |
---|---|
-q | 读取(与指定<m1>,<m2>,<s>)是FASTQ文件。FASTQ文件通常有扩展名.fq或.fastq。FASTQ是默认格式。另见:--solexa-quals和--int-quals。 |
-p/–threads NTHREADS | 启动NTHREADS并行搜索线程(默认值:1)。线程将在单独的处理器/内核上运行,并在解析读取和输出对齐时进行同步。搜索对齐高度平行,加速接近线性。提高-p增加的蝴蝶结2的内存占用。例如,当与人类基因组索引对齐时,-p从1增加到8会将内存占用增加数百兆字节。该选项仅在bowtie与pthreads库链接时才可用(即,如果BOWTIE_PTHREADS=0未在构建时指定)。 |
–local | 在这种模式下,Bowtie 2不要求整个读取从一端到另一端对齐。相反,为了达到最大可能的对齐分数,可以从末端省略一些字符(“软裁剪”) |
wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
rm mm10.zip make_mm10.sh
其他物种的索引:https://benlangmead.github.io/aws-indexes/bowtie
这里以构建 *M. musculus*, UCSC mm10
为例
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
tar -zxvf chromFa.tar.gz
cat *.fa > mm10.fa
bowtie2-build mm10.fa mm10
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
tar -zxvf chromFa.tar.gz
cat *.fa > mm10.fa
bowtie2-build mm10.fa mm10
bowtie2 -p 6 -3 5 --local -x mm10 -1 example_1.fastq -2 example_2.fastq -S example.sam
这行命令表示使用–local的比对模式,使用 mm10 的索引;这里是双末端测序,所以将待比对文件 example_1.fq example_2.fa 分别输入,以 example.sam 的文件输出 如果为单末端测序的话,上述命令换为: bowtie2 -p 6 -3 5 --local -x mm10 -U /opt/sdc/SRR/example.fastq -S example.sam
samtools sort example.sam > example.bam