https://bioinformatics.uconn.edu/genome-size-estimation-tutorial/
我首先尝试的是使用mamba来安装
mamba install jellyfish
安装过程没有报错,也没有提示没有这个软件 但是运行命令jellyfish
就提示没有这个命令,暂时不知道是什么原因
找到软件github链接 https://github.com/gmarcais/Jellyfish
软件下载链接
https://github.com/gmarcais/Jellyfish/releases
image.png
可以直接下载第二个,应该是二进制版本,可以直接使用,或者下载第一个自己编译
我这里下载第一个
wget https://github.com/gmarcais/Jellyfish/releases/download/v2.3.0/jellyfish-2.3.0.tar.gz
tar -xzvf jellyfish-2.3.0.tar.gz
cd jellyfish-2.3.0
./configure --prefix=$PWD
make -j 4
make install
运行完以后在jellyfish-2.3.0目录下会多出一个bin文件夹,文件夹下有jellyfish可执行的程序
使用的时候需要注意fastq文件需要是解压缩后的,如果是压缩文件会报错
terminate called after throwing an instance of 'std::runtime_error'
what(): Unsupported format
Aborted (core dumped)
接下来按照教程的内容
./jellyfish-2.3.0/bin/jellyfish count -t 8 -C -m 19 -o 19mer_out -s 16G YS_R1.fq YS_R2.fq
./jellyfish-2.3.0/bin/jellyfish histo -o 19mer_out.histo 19mer_out
接下来按照教程的内容发现我自己的数据和教程查好多,教程里会出现一个峰,我自己的数据完全是一个下坡,教程里的原理我也没看懂
image.png
在杏的基因组论文里看到他的方法是用genomescope,github的链接是 https://github.com/schatzlab/genomescope
命令
./jellyfish-linux count -C -m 21 -s 8G -t 12 *.fq -o reads.jf
./jellyfish-linux histo -t 12 reads.jf > reads.histo
在线工具
http://qb.cshl.edu/genomescope/
上传数据后给出的结果
image.png