大家好,终于学完了cnvnator,解决了报错的问题,现在总结一下,希望对大家有帮助。
cnvnator软件安装:
cnvnator使用时依赖root软件包,需要事先安装(wget https://root.cern.ch/download/root_v6.12.06.Linux-centos7-x86_64-gcc4.8.tar.gz)。安装完成后就可以下载安装cnvnator了(wget https://github.com/abyzovlab/CNVnator/releases/download/v0.3.3/CNVnator_v0.3.3.zip)。下载完成后解压执行如下操作:
cd /src/samtools
make
官网上说明此步骤可能会报错,但是只要生成了文件libbam.a(所在目录CNVnator_v0.3.3/src/samtools),就可以继续操作。在make结束后,修改环境变量,将root安装目录下的thisroot.sh放入环境变量即可(vi ~/.bashrc)。
设置环境变量结束后,执行如下操作即可。
cd ..(cd CNVnator_v0.3.3/src)
make
变异检测流程:
cnvnator软件在检测时步骤比较繁琐,需要经过5个步骤才可以,中间过程信息全部储存在root文件里,具体步骤如下。
1.提取mapping信息
/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator -root XL2.root -treeXL2.bwamem.MR.sorted.bam -unique &
#此步骤会生成一个sample.root文件,为二进制文件,储存各种信息,可以用之前安装好的root软件查看,执行命令/lustre/home/jiyaliang/02.software/02.cnv/root/bin/rootXL2.root,进入如下界面后输入new TBrowser()命令即可查看文件信息。
成功后显示文件信息如下,每个染色体或scaffold储存一个文件:
有一点需要注意,如果程序之前运行失败,已经生成了一个root文件,在下次重新运行时一定要删除该root文件,如果不删除,新的分析结果会追加到错误的root文件中,影响后续分析。
2.生成质量分布图HISTOGRAM
/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -his 100 -d /path/ref &
100指的是bin size,可以通过-eval参数进行筛选,也可以根据经验值进行确定,一般测序深度20-30x选取bin size大小100,2-3x选取500,100x选取30[1]。
参数-d指定目录,内部存放给染色体的fasta文件,该参数指针对有以下报错信息的情况,该报错信息显示不能解析基因组文件,此时需要指定参考基因组的位置,且各染色体需要拆分成单独的fasta文件(目录下有其文件也可以,只要有所有染色体的序列就好,软件会自动识别)
错误信息:
拆分之后目录中文件信息:
拆分完成之后运行结果如下,不会再报找不到基因组的问题:
3.生成统计结果
/lustre/home/jiyaliang/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator -root XL2.root -stat 100 &
4.RD信息分割partipition
/lustre/home/jiyaliang/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -partition 100 &
此步骤用时时间最长
cnvnator在进行变异检测时,以提供的bin size对整个基因组进行切割,之后按照RD(read-depth)为基准进行cnv的检测。
5.变异检出
/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -call 100 > xl2_cnvnator.cnv
运行之后输出结果如下:
#第一列变异类型
#第二列位点信息
#第三列CNV大小
#第四列为标准化参数
#第5-8列为e-value值,其中第五列越小,说明结果越准确
#第九列q0质量值
变异结果筛选条件[1,2]
用软件call出来的变异很多,但并不是所有的位点都是我们想要的,进行适当的筛选不仅可以减少数据的总量,还能让我们更准确的找出目标变异位点及类型,常用的筛选条件有以下四个:
t-test-value
q0
dup>2 #删选duplication的阈值
del
其中dup和del值得选取可随意,以下是文献中研究的duplication和deletion的范围,可以参考[1]。
参考文献:
[1]CNVnator:An approach to discover, genotype,and characterize typical and atypical CNVsfrom family and population genome sequencing
[2]Pangenome analyses of the wheat pathogen Zymoseptoria tritici reveal the structural basis of a highly plastic eukaryotic genome