谁能告诉我,这数据测毁了么?

作者往期投稿: 高通量数据下载还能这样操作?

本次目的与任务:了解fastq测序数据

需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量。

作业:理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。

SRA文件转换为fastq文件

用sratoolkit将NCBI上下载的sra文件转换成fastq文件,以便进行下一步的QC。该工具的安装与介绍在转录组入门1中已经有所介绍。这里我再回顾一下sratoolkit的使用:

阅读官方文档

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc ,我们的目的是把测序sra文件转换为fastq文件,因此点击“fastq-dump”进一步阅读。

查看本地帮助

从进入的这个页面我们能大概了解到fastq-dump命令的基本用法。

然后我在本地的CentOS上又运行了帮助命令 来查看本地版的命令说明。

fastq-dump -h #显示帮助

显然,本地的帮助说明更详细一点。

先看用法:fastq-dump [各种参数] <输入文件的登录号或者路径>

其中,[各种参数]在帮助中有详细介绍,根据博主@徐洲更以及@沈梦圆的文章介绍,我们常用到的参数主要是以下两部分的:

关于输出:

-O 指定输出路径--gzip 指定输出格式为gzip压缩格式(fastqc软件可以直接识别gzip压缩的文件)--bzip2 指定输出格式为bzip2压缩格式**多个文件参数**--split-3 如果是双端测序数据,则输出两个文件,如果不是则只输出一个文件。

明白了fastq-dump的常用参数,我们就得到了转换sra文件的套路

fastq-dump --gzip --split-3 -O path -A accession

具体到我们下载的数据,可以直接用@徐州更博文中的命令进行转换

for i in `seq 56 62`do     fastq-dump --gzip --split-3 -O ./fastq/ -A SRR35899${i}.sradone

以上命令在vim中编辑,保存为.sh文件后,通过bash运行,注意seq前的撇不是单引号。

查看转换结果

转换后生成一系列以.sra1.fastq.gz以及.sra2.fastq.gz结尾的压缩文件。

fastqc检测测序文件质量

多个文件批量进行QC

进入转换后fastq.gz文件所在的文件中,用以下命令生成批量运行的脚本

ls ./*fastq.gz | xargs -i echo fastqc -o ./fastqc_result --nogroup {} \& > fastqc.sh 

运行结果会生成一个名称为fastqc.sh的脚本,运行该脚本即可对当前文件夹下的fastq.gz文件进行QC。

bash fastqc.sh

查看QC结果

单独查看

关于单独的QC结果文件,大家可以看我以前的几个入门帖子了解基本知识。 https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544

知乎上@孟浩巍也有写过QC结果的解读,推荐阅读: https://zhuanlan.zhihu.com/p/20731723

MultiQC汇总查看

MultiQC是一款批量查看QC结果的软件,大大节省了我们打开多个QC结果文件的时间,具体使用方式可以查看我的知乎专栏上的介绍: https://zhuanlan.zhihu.com/p/27646873

FastQC报告中哪些是值得关注的

FastQC报告的具体解读可以参考文末参考文献,其中值得重点关注的部分主要是:

  • basic statistics
  • per base sequence quality
  • per base sequcence content
  • adaptor content
  • sequence duplication levels

主要的几个指标是GC含量,Q20和Q30的比例以及是否存在接头(adaptor)、index以及其他物种序列的污染等。

参考文献: 基因课课程《测序数据过滤与质控》( http://genek.tv )
  1. 徐洲更的博文《转录组入门(3):了解fastq测序数据》(微信搜一搜中搜索徐洲更,或者生信媛)
  2. 沈梦圆的博文《PANDA姐的转录组入门(3): 了解fastq测序数据 》(微信公众号:沈梦圆)
  3. 孟浩巍知乎专栏文章《20160410测序分析-使用FastQC做质控》
  4. 用FastQC检查二代测序原始数据的质量( https://www.plob.org/article/5987.html )

编辑:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏编程直播室

折腾git pages+hexo+NexT初识hexo开始本地试运行准备服务器准备上传工具先告一段落发表文章主题

1886
来自专栏恰同学骚年

NoSQL初探之人人都爱Redis:(1)Redis简介与简单安装

  随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了...

932
来自专栏腾讯大讲堂的专栏

全民K歌后台编译优化:从40分钟到30秒

编者注 全民K歌上线1年半的从0发展到1.5亿,用户越来越多,后台代码库越来越大,编译速度也与日俱慢,编译一下整个工程需要30-40分钟,如何实现秒编至关重要。...

2905
来自专栏恰同学骚年

操作系统核心原理-3.进程原理(上):进程概要

进程管理、内存管理和文件管理是操作系统的三大核心功能,那么什么是进程呢?顾名思义,进程就是进展中的程序,或者说进程是执行中的程序。当一个程序被加载到内存之后就变...

1242
来自专栏企鹅号快讯

黑客XSS攻击原理 真是叹为观止!

网络世界中的黑客XSS攻击原理 在现实世界的攻击实例中,保存型XSS漏洞可能会造成严重后果的特点表现得非常明显。 当收件人查阅电子邮件时,邮件内容在浏览器中显示...

29910
来自专栏Aloys的开发之路

创建和使用Windows静态链接库

首先明确这篇文章的目的,我希望大家能够通过这篇文章了解一下如何在实际工作中创建和使用Windows平台下的静态链接库。关于链接库的概念,希望大家参考维基百科”L...

2398
来自专栏Java技术

记一次解决业务系统生产环境宕机问题!

Zabbix告警生产环境应用shutdown,通过堡垒机登入生产环境,查看应用容器进程,并发现没有该业务应用的相应进程,第一感觉进程在某些条件下被系统杀死了,然...

641
来自专栏QQ音乐技术团队的专栏

全民K歌后台编译优化:从40分钟到30秒

编者注 :全民K歌上线1年半的从0发展到1.5亿,用户越来越多,后台代码库越来越大,编译速度也与日俱慢,编译一下整个工程需要30-40分钟,如何实现秒编至关重要...

2977
来自专栏Laoqi's Linux运维专列

mariadb galera集群配置

1924
来自专栏北京马哥教育

IBM技术专家教你“懒惰”Linux管理员的10个关键技巧

作者:Vallard Benincosa, 来源: https://www.ibm.com/developerworks/cn/linux/l-10sysadt...

2835

扫码关注云+社区