专栏首页生信修炼手册QUAST:评估基因组组装效果

QUAST:评估基因组组装效果

欢迎关注"生信修炼手册"!

对于不同kmer或者不同软件的基因组组装结果,我们通常会通过N50等指标来进行评估。

对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig的长度就是N50的长度。示意图如下

上图中N50的长度就是60,和N50的概念类似,还有N75, N90等说法,这些指标可以统称为Nx。Nx越大,说明组装出来的片段长度越长一定程度上,证实了组装结果越好。

除了Nx指标外,还有Lx指标,比如L50,指的是累加的contig的个数,示意图如下

上图中L50的值是3。在实际分析中,我们可以通过现有软件来计算N50, L50等指标,quast就是最常用的软件之一。该软件有在线服务,链接如下

http://quast.bioinf.spbau.ru/

只需要上传fasta格式的contig或者scaffold序列,然后提交即可。在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。

安装过程如下

wget https://sourceforge.net/projects/quast/files/quast-4.6.3.tar.gz
tar xzvf quast-4.6.3.tar.gz
cd quast-4.6.3/

quast基于python开发,以来matplotlib库进行绘图,保证python和matplotlib安装好,然后直接下载源代码,解压缩就可以使用了。

用法如下

python quast.py -t 10 -o test1_out contigs.fasta

-t参数指定线程数,-o参数指定输出结果的目录。运行完成后,输出目录会生成如下文件

├── basic_stats
├── icarus.html
├── icarus_viewers
├── quast.log
├── report.html
├── report.tex
├── report.tsv
├── report.txt
├── transposed_report.tex
├── transposed_report.tsv
└── transposed_report.txt

直接看report.html文件就就可以了。

1. contig基本信息统计表

quast 会统计不同长度的contig的个数,以及N50,L50等指标,示例结果如下

2. Nx 长度分布曲线

横坐标为Nx,纵坐标为Nx的值,示意图如下

3. contig长度累计曲线

横坐标为contig个数,纵坐标为累加的长度,示意图如下

4. GC含量分布图

窗口的GC含量分布图,quast将每个contig划分为长度100bp的窗口,统计每个窗口的GC含量, 横坐标为GC含量,纵坐标为窗口个数, 示意图如下

contig GC含量分布图,对于每个contig,统计GC含量,横坐标为GC含量,纵坐标为contig个数,示意图如下

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基因型与表型的交互作用如何分析,多元回归来搞定

    回归分析最为关联分析中最长使用的一种手段,除了可以进行协变量的校正,还可以分析各种因素间的交互作用,比如SNP与表型,SNP与环境之间的交互。具体是如何实现的呢...

    生信修炼手册
  • depth, bedgraph, bigwig之间的联系与区别

    在chip_seq的分析结果中,经常会通过igvtools或者UCSC等基因组浏览器对样本的测序深度分布进行可视化,方便直观的比较样本间的差异,示意如下

    生信修炼手册
  • WGCNA如何挖掘潜在的共表达基因

    共表达基因指的是表达量具有协同变化趋势的基因集合,通常认为这些基因参与相同的生物学过程,比如参与同一个代谢通路,正是由于功能上的协同作用,导致表达量呈现出高度相...

    生信修炼手册
  • pyhanlp用户自定义词典添加实例说明

    pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

    IT小白龙
  • 创造家庭大和谐,用 AI 给爹妈做个辟谣助手

    这些标题在具有一定科学素养的年轻人看来,根本不用点开,就知道是谣言或者过度夸张,但这些文章却在父母辈的微信群和朋友圈里每天疯传着。

    HyperAI超神经
  • phar相关安全知识总结

    我是头回学习到phar RCE的相关知识,通过这次的SUCTF,通过复现大佬们所说的知识,发现了很多有意思的东西,过来记录一下,同时也总结了一些phar序列化的...

    用户5878089
  • Eclipse myeclipse下配置HanLP的教程

    备注:文章分享自贾继康的博客,博客使用的hanlp是1.6.8的版本。大家可以去下载最新的1.7版本了,也比较推荐使用最新的这个版本!

    IT小白龙
  • JVM 内存分代、垃圾回收漫谈

    关于 JVM 内存模型以及垃圾回收的文章网上很多,自己以前也看过很多,但是却从来也没有系统的去了解学习过,这次正巧看到一本讲解 JVM 的好书 – 周志明老师的...

    哲洛不闹
  • JVM 内存分代、垃圾回收漫谈

    关于 JVM 内存模型以及垃圾回收的文章网上很多,自己以前也看过很多,但是却从来也没有系统的去了解学习过,这次正巧看到一本讲解 JVM 的好书 – 周志明老师的...

    哲洛不闹
  • 2020-10-09:假如我能拿到别人的URL,然后篡改数据(金额)发送给系统...

    2020-10-09:假如我能拿到别人的URL,然后篡改数据(金额)发送给系统,如何避免这种事情的发生?

    福大大架构师每日一题

扫码关注云+社区

领取腾讯云代金券