前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >qualimap+multiqc完美解决多组学比对结果的质控

qualimap+multiqc完美解决多组学比对结果的质控

作者头像
生信技能树
发布2018-07-27 14:22:36
3K0
发布2018-07-27 14:22:36
举报
文章被收录于专栏:生信技能树生信技能树

这个完全是项目实战经验分享咯,有大样本量NGS多组学数据处理经验的朋友应该能很容易理解,动辄几个T的数据,上百个样本很难一个个的检查是否出现问题,需要一个简单方便快捷质控方案。而我认为qualimap+multiqc完美解决多组学比对结果的质控,当然也欢迎大家在我们生信技能树平台推荐自己的实战经验!

qualimap的英文文档本来就很清楚,但是需要一些时间来理解: http://qualimap.bioinfo.cipf.es/doc_html/analysis.html

qualimap的测试数据也给的很全面: http://qualimap.bioinfo.cipf.es/doc_html/samples.html#counts-example-output

对外显子测序用qualimap

需要自己制作 mm10.exon.chr.bed 文件,我在生信菜鸟团博客多次讲解过它的制作方式,如下:

代码语言:javascript
复制
wget ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS//archive/21/CCDS.20161208.txt

cat CCDS.20161208.txt   |perl -alne '{/\[(.*?)\]/;next unless $1;$gene=$F[2];$exons=$1;$exons=~s/\s//g;$exons=~s/-/\t/g;print "$F[0]\t$_\t$gene" foreach split/,/,$exons;}'|sort -u |bedtools sort -i >mm10.exon

awk '{print $0"\t0\t+"}' mm10.exon >mm10.exon.bed

然后就可以运行 qualimap,下面的shell脚本我也在生信菜鸟团博客多次讲解过,相信你们肯定能看懂了。

代码语言:javascript
复制
## $1 for the config file:  bam_path.txt
## $2 and $3 for submit jobs.
exon_bed='/home/jianmingzeng/annotation/CCDS/mouse/mm10.exon.chr.bed'
qualimap='/home/jianmingzeng/biosoft/Qualimap/qualimap_v2.2.1/qualimap'
cat $1 |while read id 
do 
echo $id 
    if((i%$2==$3))
    then
    $qualimap bamqc --java-mem-size=20G -gff $exon_bed -bam $id 
    fi
    i=$((i+1))   
done 

可以看外显子的测序情况。

对转录组数据进行QC

这里其实应该是首推RSeQC这个软件,可惜那是个python的,而且运行超慢,还具耗费内存。所以不得已转为

示例报告: http://kokonech.github.io/qualimap/kidney_rnaseqqc/qualimapReport.html

代码语言:javascript
复制
## $1 for the config file:  bam_path.txt
## $2 and $3 for submit jobs.
gtf='/home/jianmingzeng/reference/gtf/gencode/gencode.v25.annotation.gtf'
qualimap='/home/jianmingzeng/biosoft/Qualimap/qualimap_v2.2.1/qualimap'
cat $1 |while read id 
do 
file=$(basename $id )
sample=${file%%.*} 
echo $sample 
    if((i%$2==$3))
    then
    $qualimap rnaseq --java-mem-size=20G -gtf $gtf -bam $id -pe  -oc $sample 
    fi
    i=$((i+1))   
done 

count qc

属于转录组数据质控的一部分,比如:6 samples in 2 conditions 的报告,这个时候的input数据是表达矩阵了:

  • Global report
  • Comparison of conditions
  • Sample 01 (GlcN negative)
  • Sample 02 (GlcN negative)
  • Sample 03 (GlcN negative)
  • Sample 04 (GlcN positive)
  • Sample 05 (GlcN positive)
  • Sample 06 (GlcN positive)

综合比较多个bam文件

示例报告:

  • 无分组信息:https://rawgit.com/kokonech/kokonech.github.io/master/qualimap/gh2ax_multibamqc/multisampleBamQcReport.html
  • 有分组信息:https://rawgit.com/kokonech/kokonech.github.io/master/qualimap/gh2ax_groups_multibamqc/multisampleBamQcReport.html

qualimap会给每一个样本单独进行质控,得到质控的html报告,不过那个报告本身非常丑陋,而且单独的html报告依然是不方便浏览,需要归纳汇总,这个时候multiqc就能大展身手。multiqc已经发展成为了一个质控平台,大家可以在其平台上面开发各种质控软件的可视化归纳汇总插件,而qualimap就已经被开发了。

对WES数据汇总,下面我截图其中一个例子:

对RNA-seq数据汇总,我截图两个例子:

因为我这里展示的公共数据的质控结果,所以非常优秀,但实际在处理自己的真实数据,总是会发现各种各样的问题。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 对外显子测序用qualimap
  • 对转录组数据进行QC
  • count qc
  • 综合比较多个bam文件
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档