首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CNV变异检测-CNVnator

大家好,终于学完了cnvnator,解决了报错的问题,现在总结一下,希望对大家有帮助。

cnvnator软件安装:

cnvnator使用时依赖root软件包,需要事先安装(wget https://root.cern.ch/download/root_v6.12.06.Linux-centos7-x86_64-gcc4.8.tar.gz)。安装完成后就可以下载安装cnvnator了(wget https://github.com/abyzovlab/CNVnator/releases/download/v0.3.3/CNVnator_v0.3.3.zip)。下载完成后解压执行如下操作:

cd /src/samtools

make

官网上说明此步骤可能会报错,但是只要生成了文件libbam.a(所在目录CNVnator_v0.3.3/src/samtools),就可以继续操作。在make结束后,修改环境变量,将root安装目录下的thisroot.sh放入环境变量即可(vi ~/.bashrc)。

设置环境变量结束后,执行如下操作即可。

cd ..(cd CNVnator_v0.3.3/src)

make

变异检测流程:

cnvnator软件在检测时步骤比较繁琐,需要经过5个步骤才可以,中间过程信息全部储存在root文件里,具体步骤如下。

1.提取mapping信息

/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator -root XL2.root -treeXL2.bwamem.MR.sorted.bam -unique &

#此步骤会生成一个sample.root文件,为二进制文件,储存各种信息,可以用之前安装好的root软件查看,执行命令/lustre/home/jiyaliang/02.software/02.cnv/root/bin/rootXL2.root,进入如下界面后输入new TBrowser()命令即可查看文件信息。

成功后显示文件信息如下,每个染色体或scaffold储存一个文件:

有一点需要注意,如果程序之前运行失败,已经生成了一个root文件,在下次重新运行时一定要删除该root文件,如果不删除,新的分析结果会追加到错误的root文件中,影响后续分析。

2.生成质量分布图HISTOGRAM

/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -his 100 -d /path/ref &

100指的是bin size,可以通过-eval参数进行筛选,也可以根据经验值进行确定,一般测序深度20-30x选取bin size大小100,2-3x选取500,100x选取30[1]。

参数-d指定目录,内部存放给染色体的fasta文件,该参数指针对有以下报错信息的情况,该报错信息显示不能解析基因组文件,此时需要指定参考基因组的位置,且各染色体需要拆分成单独的fasta文件(目录下有其文件也可以,只要有所有染色体的序列就好,软件会自动识别)

错误信息:

拆分之后目录中文件信息:

拆分完成之后运行结果如下,不会再报找不到基因组的问题:

3.生成统计结果

/lustre/home/jiyaliang/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator -root XL2.root -stat 100 &

4.RD信息分割partipition

/lustre/home/jiyaliang/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -partition 100 &

此步骤用时时间最长

cnvnator在进行变异检测时,以提供的bin size对整个基因组进行切割,之后按照RD(read-depth)为基准进行cnv的检测。

5.变异检出

/lustre/02.software/02.cnv/CNVnator_v0.3.3/src/cnvnator-root XL2.root -call 100 > xl2_cnvnator.cnv

运行之后输出结果如下:

#第一列变异类型

#第二列位点信息

#第三列CNV大小

#第四列为标准化参数

#第5-8列为e-value值,其中第五列越小,说明结果越准确

#第九列q0质量值

变异结果筛选条件[1,2]

用软件call出来的变异很多,但并不是所有的位点都是我们想要的,进行适当的筛选不仅可以减少数据的总量,还能让我们更准确的找出目标变异位点及类型,常用的筛选条件有以下四个:

t-test-value

q0

dup>2 #删选duplication的阈值

del

其中dup和del值得选取可随意,以下是文献中研究的duplication和deletion的范围,可以参考[1]。

参考文献:

[1]CNVnator:An approach to discover, genotype,and characterize typical and atypical CNVsfrom family and population genome sequencing

[2]Pangenome analyses of the wheat pathogen Zymoseptoria tritici reveal the structural basis of a highly plastic eukaryotic genome

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710G1TUOM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券