首先介绍一下RSeQC这个软件
一.RSeQC介绍
RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。它提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据,比如一些基本模块,检查序列质量, 核酸组分偏性, PCR偏性, GC含量偏性,还有RNA-seq特异性模块: 评估测序饱和度, 映射读数分布, 覆盖均匀性, 链特异性, 转录水平RNA完整性等。该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。你可以参考官方教程文档:
https://pythonhosted.org/RSeQC/#bam2fq-py
RSeQC接受4种文件格式:
二. 使用bam_stat.py命令查看比对的总体情况
用 bam_stat.py来统计总比对记录, PCR重复数, Non Primary Hits表示多匹配位点, 不匹配的reads数, 比对到+链的reads, 比对到-链的reads, 有剪切位点的reads等。
我们查看前面产生的文件CK-4_sort.bam【文章:转录组分析 | 使用SAMtools将SAM文件转换为BAM文件、排序、建立索引】。
bam_stat.py -i cleandata/samtools_bam/CK-4_sort.bam
三.使用read_distribution.py命令查看基因组覆盖率
该命令需要输入两个文件, -i为BAM或SAM文件;-r为参考的bed文件。
bed文件参考文章:生信中常见的数据文件格式。bed文件下载地址RSeQC官网:https://sourceforge.net/projects/rseqc/files/BED/,我这里下载的是小鼠的:https://sourceforge.net/projects/rseqc/files/BED/Mouse_Mus_musculus/
下载后解压上传到Linux服务器中,我的bed文件在 /data/mouse_RefSeq/ 这个目录下。
ll -h /data/mouse_RefSeq/
read_distribution.py -i cleandata/samtools_bam/CK-4_sort.bam -r /data/mouse_RefSeq/mm10_RefSeq.bed
组学分析流程的每一个步骤都很重要,实验设计,质控,read比对,表达定量,可视化,差异表达,识别可变剪切,功能注释,融合基因检测,eQTL定位等都需要考虑。我们后面介绍:使用Stringtie对数据进行下游处理。
为了快速查看本公众号文章,可阅读文章:公众号文章目录
参考:https://mp.weixin.qq.com/s/KpQwwDm_aIvIbxXHiaNrLg