前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >去rRNA可以解决GC含量双峰的右峰

去rRNA可以解决GC含量双峰的右峰

作者头像
生信技能树
发布2020-06-11 09:49:52
1.4K0
发布2020-06-11 09:49:52
举报
文章被收录于专栏:生信技能树生信技能树

前些天我在生信技能树提出来了一个转录组数据分析的疑难杂症:RNA-seq的fastq文件里面为什么有gc含量的双峰,就是fastq测序数据质量控制的时候发现了GC含量的双峰,然后我简单分析了那些高重复的reads,发现一些是BCA文库,一些是rRNA相关的,所以想到了可以首先去除fastq文件中的rRNA ,就安排学徒去探索一下,过程如下:

  1. 从NCBI下载rRNA的fa序列

1.1 打开NCBI,选择“Taxonomy” ,搜索 “Homo“

1.2 点击 Homo

1.3 点击 Homo sapiens

1.4 再次点击Homo sapiens

1.5 右边表格点击Nucleotide的“Subtree links”

1.6 左侧选择rRNA

1.7 下载fasta数据

注意:选择显示200个记录,让所有记录都显示在一页,方便下载全部条目。

另存为:hg38_rRNA.fasta,这个文件很小,如果大家完成上面的步骤有困难,也可以留言自己的邮箱,我们直接发送这个文件给大家哈。

  1. bowtie2建立rRNA索引
代码语言:javascript
复制
bowtie2-build hg38_rRNA.fasta hg38_rRNA

这个时候的比对工具的选择,并不一定要bowtie2软件哈。

  1. 使用bowtie2去除rRNA,重点--un-conc-gz参数。查阅hisat2的帮助文档,发现有同样的参数,所以可以用hisat2完成同样的操作。
代码语言:javascript
复制
index=/data/reference/index/bowtie2/hg38_rRNA/hg38_rRNA
bowtie2 -x ${index} --un-conc-gz SRR6236728_rmrRNA.fq.gz -1 SRR6236728_1_val_1.fq.gz -2 SRR6236728_2_val_2.fq.gz -p 6 | samtools sort -o tmp.bam -
rm tmp.bam

bowtie2运行耗时20min左右,如果是hisat2,可能会更快,大家可以自行测试和比较一下。

  1. 去除前后的fq文件比较

上面fq文件包含val标签的是去除rRNA之前的fq文件,包含rmrRNA标签的是去除rRNA之后的fq文件。

下面是不同fq文件的fastqc报告:

可以看到,少了8百万条reads。

可以看到,GC含量最后一个峰是由rRNA导致,因为8百万条reads被去除后,该峰就消失了。

最后剩下的问题,就是GC含量的另外一个峰。我们后续再谈它!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档