前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >fast5和fastq格式

fast5和fastq格式

作者头像
生信技能树
发布2020-04-14 13:23:11
1.4K0
发布2020-04-14 13:23:11
举报
文章被收录于专栏:生信技能树

前面我们介绍了Oxford Nanopore Technologies(牛津纳米孔技术)公司的一些测序仪,也看到了它产出的测序数据,详见:全长转录组分析之牛津纳米孔测序介绍

现在前面一起来详细认识这样的数据吧!

Nanopore测序的下机数据的原始数据格式为包含所有原始测序电信号的二代fast5格式。通过MinKNOW2.2软件包中的Guppy软件进行base calling后会将fast5格式数据转换为fastq格式,用于后续质控分析。(通常测序服务商会给你fastq格式的数据结果)

上次我们提到对于ONT原始下机数据混样建库和非混样建库数据稍微有些区别。混样主要是需要凑够样本数达到一个上机lane的测序量,目前三代全长转录组一个样本基本产出2G就可以满足下游分析,因此,多属于混样建库测序。

对于一次下机的数据,文件如下:

rawdata_file

主要是看fast5和fastq文件:

  • fast5:原始电信号文件,以.fast5为文件结尾。此文件既有测序得到的序列信息,还有甲基化修饰信息。经过basecall,MinKNOW2.2软件包中的Guppy软件可以将fast5文件转换得到fq文件。测序仪本身是带有这个basecall功能的。
  • fastq:由fast5文件转换而来,以.fastq或.fq结尾,与二代格式一样,四行为一个单位,只不过序列要长很多,这是三代的一个优势。

fastq

可以看到,测序的每个reads的碱基数量非常多!这里面的质量值,仍然是符合fastq格式的定义哦!

fail和pass文件夹是根据测序仪设置的一个指标比如Q值>7对数据进行的一个处理,fail代表指标没有达到这个标准,pass指通过了这个标准。

  • final_summary.txt文件:

final_summary

每个测序文件的汇总表,都需要仔细研读,好的数据作为开头,才有可能有好的分析结果。

  • sequencing_summary.txt文件:主要存储了一些read长度每个read的平均测序质量(MeanQscore)等信息,作为对数据进行长度,N50,MeanLength,MaxLenght等指标统计,后续过滤等用途。

sequance_summary

此次专题主要学习和记录一些在分析ONT测序产品如ONT全长转录组,ONT甲基化以及ONT重测序中的所思所想所得

个人所知有限,如有理解错误,还请批评指正。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档