前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录组分析 | 使用RSeQC软件对生成的BAM文件进行质控

转录组分析 | 使用RSeQC软件对生成的BAM文件进行质控

作者头像
DoubleHelix
发布2020-09-23 12:03:51
4.9K0
发布2020-09-23 12:03:51
举报

首先介绍一下RSeQC这个软件

一.RSeQC介绍

RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。它提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据,比如一些基本模块,检查序列质量, 核酸组分偏性, PCR偏性, GC含量偏性,还有RNA-seq特异性模块: 评估测序饱和度, 映射读数分布, 覆盖均匀性, 链特异性, 转录水平RNA完整性等。该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。你可以参考官方教程文档:

https://pythonhosted.org/RSeQC/#bam2fq-py

RSeQC接受4种文件格式:

  • BED 格式: Tab 分割, 12列的表示基因模型的纯文本文件
  • SAM 或BAM 格式: 用来存储reads 比对结果信息.
  • 染色体大小文件: 只有两列的纯文本文
  • Fasta文件的参考基因组

二. 使用bam_stat.py命令查看比对的总体情况

用 bam_stat.py来统计总比对记录, PCR重复数, Non Primary Hits表示多匹配位点, 不匹配的reads数, 比对到+链的reads, 比对到-链的reads, 有剪切位点的reads等。

我们查看前面产生的文件CK-4_sort.bam【文章:转录组分析 | 使用SAMtools将SAM文件转换为BAM文件、排序、建立索引】。

bam_stat.py -i cleandata/samtools_bam/CK-4_sort.bam

三.使用read_distribution.py命令查看基因组覆盖率

该命令需要输入两个文件, -i为BAM或SAM文件;-r为参考的bed文件。

bed文件参考文章:生信中常见的数据文件格式。bed文件下载地址RSeQC官网:https://sourceforge.net/projects/rseqc/files/BED/,我这里下载的是小鼠的:https://sourceforge.net/projects/rseqc/files/BED/Mouse_Mus_musculus/

下载后解压上传到Linux服务器中,我的bed文件在 /data/mouse_RefSeq/ 这个目录下。

ll -h /data/mouse_RefSeq/
read_distribution.py -i cleandata/samtools_bam/CK-4_sort.bam -r /data/mouse_RefSeq/mm10_RefSeq.bed

组学分析流程的每一个步骤都很重要,实验设计,质控,read比对,表达定量,可视化,差异表达,识别可变剪切,功能注释,融合基因检测,eQTL定位等都需要考虑。我们后面介绍:使用Stringtie对数据进行下游处理。

为了快速查看本公众号文章,可阅读文章:公众号文章目录


参考:https://mp.weixin.qq.com/s/KpQwwDm_aIvIbxXHiaNrLg

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档