背景
不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,我们要从中挑选出最好的拼接结果。这时候要借助不同的软件。
一、组装结果评估
1、准确性
基因组大小接近真实大小,拼出来的一般小于真实大小;
GC含量接近真实GC含量,一个物种含量固定,可以判断污染;
基因组框架没有问题;
单碱基准确性,首先保证框架不错,单碱基位点可以纠错。
2、完整性
拼接序列条数接近染色体数据;
片段长度长;
N50,N90长;
基因完整性高;
一般是互斥的,准确性高完整性低,准确性低完整性高。
1、首先保证准确性;
2、在保证准确性前提下,追求完整性。
二、N50与N90
N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等
一般软件都有统计的结果可以找下日志。
三、quast评估
今天给大家介绍一款,quast
QUAST: Quality Assessment Tool for Genome Assemblies,可以对不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,然后将结果进行可视化,我们可以从中挑选出最好的拼接结果。如果有近源参考序列,加入近源参考序列,可以比较基因组结构连接信息,与参考序列最近源的则为最佳结果。如果没有参考序列,软件会将两两序列进行比较。
软件官网:QUAST:http://bioinf.spbau.ru/quast
#quast 评估案例:
quast.py -r MGH78578.fasta spades.fa soapdenovo.fa -o quast
-o --output-dir 输出结果目录。
-r 参考序列文件,不带的话,结果就没有和参考序列比较,只是spade和soapdenovo比较。
-G --genes 参考序列基因坐标,一般 BED 或者 GFF 格式文件,ncbi下载genome即可。
-m --min-contig 最小 contig 长度,也就是小于这个阈值的不参与计算。
-t --threads 使用线程数目,默认使用四分之一的 cpu。
--help 列出全部选项参数,大部分情况下,默认这些选项即可。
结果report.html,可以去浏览器打开。
#quast
conda activate quast
quast -o quast -r GCF_000240185.1_ASM24018v2_genomic.fna -t 12 -g GCF_000240185.1_ASM24018v2_genomic.gff soapdenovo.fa spades.fa --glimmer
写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。
bioinfoer.com
有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。