专栏首页生物信息云转录组分析 | 使用RSeQC软件对生成的BAM文件进行质控

转录组分析 | 使用RSeQC软件对生成的BAM文件进行质控


首先介绍一下RSeQC这个软件

一.RSeQC介绍

RSeQC是发表于2012年的一个RNA-Seq质控工具,属于python包。它提供了一系列有用的小工具能够评估高通量测序尤其是RNA-seq数据,比如一些基本模块,检查序列质量, 核酸组分偏性, PCR偏性, GC含量偏性,还有RNA-seq特异性模块: 评估测序饱和度, 映射读数分布, 覆盖均匀性, 链特异性, 转录水平RNA完整性等。该软件的使用命令非常多,但很多功能并不是用来诊断转录组测序的,所以不在我们的考虑范围内。你可以参考官方教程文档:

https://pythonhosted.org/RSeQC/#bam2fq-py

RSeQC接受4种文件格式:

  • BED 格式: Tab 分割, 12列的表示基因模型的纯文本文件
  • SAM 或BAM 格式: 用来存储reads 比对结果信息.
  • 染色体大小文件: 只有两列的纯文本文
  • Fasta文件的参考基因组

二. 使用bam_stat.py命令查看比对的总体情况

用 bam_stat.py来统计总比对记录, PCR重复数, Non Primary Hits表示多匹配位点, 不匹配的reads数, 比对到+链的reads, 比对到-链的reads, 有剪切位点的reads等。

我们查看前面产生的文件CK-4_sort.bam【文章:转录组分析 | 使用SAMtools将SAM文件转换为BAM文件、排序、建立索引】。

bam_stat.py -i cleandata/samtools_bam/CK-4_sort.bam

三.使用read_distribution.py命令查看基因组覆盖率

该命令需要输入两个文件, -i为BAM或SAM文件;-r为参考的bed文件。

bed文件参考文章:生信中常见的数据文件格式。bed文件下载地址RSeQC官网:https://sourceforge.net/projects/rseqc/files/BED/,我这里下载的是小鼠的:https://sourceforge.net/projects/rseqc/files/BED/Mouse_Mus_musculus/

下载后解压上传到Linux服务器中,我的bed文件在 /data/mouse_RefSeq/ 这个目录下。

ll -h /data/mouse_RefSeq/
read_distribution.py -i cleandata/samtools_bam/CK-4_sort.bam -r /data/mouse_RefSeq/mm10_RefSeq.bed

组学分析流程的每一个步骤都很重要,实验设计,质控,read比对,表达定量,可视化,差异表达,识别可变剪切,功能注释,融合基因检测,eQTL定位等都需要考虑。我们后面介绍:使用Stringtie对数据进行下游处理。

为了快速查看本公众号文章,可阅读文章:公众号文章目录


参考:https://mp.weixin.qq.com/s/KpQwwDm_aIvIbxXHiaNrLg

本文分享自微信公众号 - MedBioInfoCloud(MedBioInfoCloud),作者:DoubleHelix

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 转录组分析 | 使用Hisat2进行序列比对

    转录组分析 | 使用trim-galore去除低质量的reads和adaptor

    DoubleHelix
  • 癌症研究不知道做什么?来关注这个数据库,或许可以给你一些思路

    如果做肿瘤研究,不知道做什么基因或者蛋白,也不知道从何处入手?那给你推荐一个数据库,或许可以给你提供一些思路。这个数据库就是:The Pathology Atl...

    DoubleHelix
  • 赶快收藏:R语言常用函数整理

    DoubleHelix
  • C#基础知识回顾-- 反射(2)

    使用反射调用方法: 一旦知道一个类型所支持的方法,就可以对方法进行调用。调用时,需使用包含在 MethodInfo中的Invoke()方法。调用形式: obje...

    hbbliyong
  • JDK源码分析-PriorityQueue

    PriorityQueue 意为优先队列,表示队列中的元素是有优先级的,也就是说元素之间是可比较的。因此,插入队列的元素要实现 Comparable 接口或者 ...

    WriteOnRead
  • C++雾中风景10:聊聊左值,纯右值与将亡值

    左值(lvalue)和右值(rvalue)是C++类型系统之中的基础概念,我们不需要了解这些基础概念,同样也能写出代码。但是如果没有弄清左右值的概念,对于许多C...

    HappenLee
  • Android数据库高手秘籍(八)——使用LitePal的聚合函数

    上一篇文章当中,我们已经把LitePal查询操作的所有用法都学习完了,很显然,LitePal帮我们提供了非常强大的查询API,使得我们可以极度轻松地完成各种类型...

    用户1158055
  • 打造酷炫终端

    1.安装iTerm2 iTerm2官方下载地址 http://www.iterm2.com/downloads.html 2.安装Oh My Bash 1.使用...

    lwen
  • 生生世世 —— schedule 的轮回(七)

    上一讲,我们讲完 main goroutine 以及普通 goroutine 的退出过程。main goroutine 退出后直接调用 exit(0) 使得整个...

    梦醒人间
  • Excel公式练习73: 计算车辆停放的时长

    汽车公司会实时跟踪卡车车队的位置,在每天的每个小时点会记录每辆卡车的具体位置,如上图1所示,假设共有5个位置,分别使用A、B、C、D、E来代表,卡车在同一位置连...

    fanjy

扫码关注云+社区

领取腾讯云代金券