前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >quast评估

quast评估

作者头像
生信喵实验柴
发布2022-05-23 11:32:43
1.2K0
发布2022-05-23 11:32:43
举报
文章被收录于专栏:生信喵实验柴

背景

不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,我们要从中挑选出最好的拼接结果。这时候要借助不同的软件。

一、组装结果评估

1、准确性

基因组大小接近真实大小,拼出来的一般小于真实大小;

GC含量接近真实GC含量,一个物种含量固定,可以判断污染;

基因组框架没有问题;

单碱基准确性,首先保证框架不错,单碱基位点可以纠错。

2、完整性

拼接序列条数接近染色体数据;

片段长度长;

N50,N90长;

基因完整性高;

一般是互斥的,准确性高完整性低,准确性低完整性高。

1、首先保证准确性;

2、在保证准确性前提下,追求完整性。

二、N50与N90

N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等

一般软件都有统计的结果可以找下日志。

三、quast评估

今天给大家介绍一款,quast

QUAST: Quality Assessment Tool for Genome Assemblies,可以对不同软件拼接的基因组序列,或者同一软件,不同选项参数拼接的结果进行比较,然后将结果进行可视化,我们可以从中挑选出最好的拼接结果。如果有近源参考序列,加入近源参考序列,可以比较基因组结构连接信息,与参考序列最近源的则为最佳结果。如果没有参考序列,软件会将两两序列进行比较。

软件官网:QUAST:http://bioinf.spbau.ru/quast

代码语言:javascript
复制
#quast 评估案例:
quast.py -r MGH78578.fasta spades.fa soapdenovo.fa -o quast

-o --output-dir 输出结果目录。

-r 参考序列文件,不带的话,结果就没有和参考序列比较,只是spade和soapdenovo比较。

-G --genes 参考序列基因坐标,一般 BED 或者 GFF 格式文件,ncbi下载genome即可。

-m --min-contig 最小 contig 长度,也就是小于这个阈值的不参与计算。

-t --threads 使用线程数目,默认使用四分之一的 cpu。

--help 列出全部选项参数,大部分情况下,默认这些选项即可。

结果report.html,可以去浏览器打开。

代码语言:javascript
复制
#quast
conda activate quast
quast -o quast -r GCF_000240185.1_ASM24018v2_genomic.fna -t 12 -g GCF_000240185.1_ASM24018v2_genomic.gff soapdenovo.fa spades.fa  --glimmer

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档