前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RNAseq分析流程-Hisat2+Samtools+Stringtie

RNAseq分析流程-Hisat2+Samtools+Stringtie

作者头像
生信编程日常
发布2020-04-01 15:43:37
1K0
发布2020-04-01 15:43:37
举报

首先,分析RNAseq要对整个分析流程有个整体的了解: 参考https://tiramisutes.github.io/2018/12/04/ref-RNA-seq.html 详细介绍了主要用到的分析工具和流程。这里我主要介绍一下我常用的分析流程 拿到原始数据首先需要对文件完整性进行检查

代码语言:javascript
复制
md5sum file #输出的MD5和测序公司给的进行对比,一样则说明文件完整
#或者,如果公司给出了md5.txt,md5sum -c 
#  -c 根据已生成的md5值,对现存文件进行校验
md5sum -c md5.txt#文件完整的会输出ok

文件完整之后要进行质控,用到fastqc,或者multiqc

代码语言:javascript
复制
 fastqc -o fastqc_out/ -t 10 *.clean.fq.gz

然后再是比对的流程

代码语言:javascript
复制
hisat2 -p 20 --dta -x hisat2_index/hg38 -1 clean/sample_1.clean.fq.gz -2 clean/sample_2.clean.fq.gz -S align.sam/sample.align.sam > align.log/sample.align.log 2>&1

        #samfiles sorting
        samtools sort -@ 20 -o bam/sample.bam align.sam/sample.align.sam

        #stringtie processing
        stringtie -e -p 20 -G reference/annotation/human/hg38/gencode.v29.annotation.gtf -o stringtie_out/sample/sample.gtf bam/sample.bam

因为我有多个fastq文件,每个都写太慢了,一般会用一些shell命令直接将文件批量在for sample in 你的文件名,如我的fastq文件都在clean文件夹下,clean下面有4个文件夹control1,control2,treat1,treat2,每个文件夹下面又有双端测序的fastq.gz文件,如control1_1.clean.fq.gz,control1_2.clean.fq.gz则

代码语言:javascript
复制
echo "start! \n"

for sample in `du -sh clean/* |cut -d '/' -f2`;#取clean下面的文件夹的名字,这个也可以自己写,如for sample in control1 control2 treat1 treat2;
do

        #fastqc 质控这个一般公司给的数据会给这个结果,所以可选
        #fastqc -o fastqc_out/ -t 10 clean/${sample}/*.clean.fq.gz

        #hisat mapping
        hisat2 -p 20 --dta -x reference/index/hg38/hisat2_index/hg38 -1 clean/${sample}/${sample}_1.clean.fq.gz -2 clean/${sample}/${sample}_2.clean.fq.gz -S align.sam/${sample}.align.sam > align.log/${sample}.align.log 2>&1

        #samfiles sorting
        samtools sort -@ 20 -o bam/${sample}.bam align.sam/${sample}.align.sam

        #stringtie processing
        stringtie -e -p 20 -G reference/annotation/human/hg38/gencode.v29.annotation.gtf -o stringtie_out/${sample}/${sample}.gtf bam/${sample}.bam
done

python prepDE.py -i stringtie_out -g gene_count_matrix.csv -t gene_transcript_matrix.csv

echo "end!"

需要注意的是reference/index/hg38/hisat2_index/hg38这里的hisat2需要的index需要自己建立,stringtie的annotation需要GENCODE上下载

代码语言:javascript
复制
#建立human的参考基因组:human或者小鼠的genome.fa可以UCSC ,Ensembl下载
hisat2-build –p 8 genome.fa genome
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档