前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >(1)TBtools | 序列工具之序列信息提取

(1)TBtools | 序列工具之序列信息提取

作者头像
生信real
发布2020-08-26 16:43:16
5.7K0
发布2020-08-26 16:43:16
举报
文章被收录于专栏:Linux基础入门

一、功能介绍

该功能可获取Fasta序列的以下信息:

①Total_Len(序列总长)

②Total_Seq_Num(染色体数)

③Total_N _Counts(未测通的碱基数)

④Total_LowCase_Counts(重复序列的标志)

⑤Total_GC_content(GC含量)

⑥Minimum Len(最小序列长度)

⑦Maximum Len(最大序列长度)

⑧Mean Len(平均序列长度)

⑨Median Len(序列中位数长度)

⑩N50

附,N50含义:

在此之前我们需要先明白reads、conting、scaffold的意义和关系。

①reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。

②contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是contig。

③scaffold:是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。

N50:比如一个基因组大小是1M,然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。

这个数值越大说明组装的质量越好。

即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。

二、操作方式

SequenceToolkit → Fasta tools → Fasta stats

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信real 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档