RNA-seq老司机领读转录组结题报告

其实大家更关心的是数据处理问题,为此我们在前期已经推送过两篇相关内容,如果还没看过的朋友可别落下。

WGS,WES,RNA-seq组与ChIP-seq之间的异同(点击查看原文)

做过1000遍RNA-seq的老司机告诉你如何翻车(点击查看原文)

因为做了多年NGS组学数据处理看了不少业内知名公司有参转录组结题再结合自己的一些经验, 生信技能树公众号将系统整理多种组学分析流程和大家分享,如果不想错过就关注我们的公众号然后置顶吧~

RNA-seq的分析流程

这一次我们首先了解RNA-seq的分析流程

总的来说,各种有参组学分析要点大同小异,利用主流分析软件结合数据库来解释分析结果。一份报告可以出近百张花花绿绿的figures,我们先看看大致内容。

标配内容:(不可能没有的)

  • 测序数据的一些统计及过滤
  • 比对情况的说明及统计
  • 基因表达信息的统计
  • 差异分析表达富集分析(GO/KEGG等数据库注释)

常见内容:(基于不同需求基本都有的)

  • 基于转录本的可变剪切统计
  • 新转录本探索及注释
  • 转录本结果优化
  • 融合基因分析
  • SNP分析
  • lncRNA分析
  • 蛋白互作网络分析
  • 转录因子相关分析

说明:如果专门针对lncRNA进行深入分析,对建库方式和测序深度都有不同的要求。

下图就是一个最常见基本的解题报告目录

下面针对一些内容进行具体说明。

测序数据的一些统计及过滤

不管是什么NGS组学数据,首先结题报告要秀的就是自己给客户的测序数据如何如何的好,无非就是fastqc或者fastx-toolkit等软件对fastq文件的简单处理再整理成表格图形展示。包括phred值、碱基组成,GC含量,接头以及Duplication level等内容,这就需要过滤掉低质量的测序数据,过滤前后都需要可视化图表给客户做对比。还可以简单做一个测序饱和度分析,还有随机性分析等。

比对情况的说明及统计

选择好物种,参考基因组版本后可以比对到参考基因组和参考转录组,都给出比对统计信息,一般如下:

  • Total Reads : 总的reads数量
  • Unmapped Reads : 未比对上参考基因组的reads数及占总数的比例
  • Unique Mapped Reads : 唯一比对上参考基因组的reads数及占总数的比例
  • Multiple Mapped Reads : 多处比对上参考基因组的reads数及占总数的比例

比对不仅仅是看测序数据的利用率,还要分析参考基因组本身被测的情况:

  • All Reference Genes : 参考基因组的基因总数
  • Known Gene Num : 检测到的已知基因数目 (比率=已知基因数目/参考基因组的基因总数)
  • New Gene Num : 检测到的新基因数目

还可以用一些RNA-seq专用QC软件看看reads的5~3覆盖情况,reads在不同的genomic feature(intron,exon,UTR,TSS,TTS,intergenic)的分布。

基因表达相关套路分析及展现

这个里面包含好几个步骤,适用于任何表达矩阵数据,可以是芯片得到的,也可以是测序得到的。

首先要对比对好的bam文件根据基因组注释文件拿到基因的表达量矩阵,根据分组做差异表达分析。

针对这个流程开发的软件非常多,主要有6个组合,如下:

  • Tophat-Cufflink-Cuffdiff
  • Subread-featureCounts-DESeq2
  • STAR-RSEM-EBSeq
  • Bowtie-eXpress-edgeR
  • kallisto-sleuth
  • HISAT-StringTie-Ballgown

表达量得到后也有一些QC,包括表达丰度统计,重复性检验,相关性等。结题报告能给用户的就是表达矩阵以及差异分析结果表格,差异分析的火山图,热图等信息。

有了差异分析结果,就需要对上调下调基因进行一系列注释。

这样就有3个基因集合,分别是上调的几百个基因下调的几百个基因,还有上下调合起来的近千个基因

一般的GO/KEGG注释,都是超几何分布检验,所以这个分析跟前面的表达矩阵已经没有什么关系了。

结题报告能给用户的就是GO/KEGG注释的P值,一般用户需要关心的,也就是显著部分。但不得不提的是GSEA是针对表达量矩阵进行富集分析,有点区别。

基于转录本的套路分析

主要就是可变剪切统计,新转录本探索及注释,转录本结构优化等内容。

这些也有标准的软件来做,公司的工作就是把流程搭建好,跑个标准分析即可。

比如可以用ASprofile 软件对 Cufflinks 预测的转录本的可变剪切事件进行分类统计,常见可变剪切事件如下所示:

  • AE: Alternative exon ends (5' , 3' , or both) ----- 可变 5' 或3' 端剪切
  • XAE: Approximate AE (5' , 3' , or both) ----- 近似可变 5' 或3' 端剪切
  • IR: Intron retention ----- 单内含子保留
  • XIR: Approximate IR ----- 近似单内含子保留
  • MIR: Multi-IR ----- 多内含子保留
  • XMIR: Approximate MIR ----- 近似多内含子保留
  • TSS: Alternative 5' first exon ----- 第一个外显子可变剪切
  • TTS: Alternative 3' last exon ----- 最后一个外显子可变剪切
  • SKIP: Skipped exon ----- 单外显子跨跃
  • XSKIP: Approximate SKIP ----- 近似单外显子跨跃
  • MSKIP: Multi-exon SKIP ----- 多外显子跨跃
  • XMSKIP: Approximate MSKIP ----- 近似多外显子跨跃

可以将Length >= 200bpexon number >=2 作为可靠的新基因的转录本筛选条件,新基因的转录本需要做Nr, KEGG的数据库注释。

至于基因结构优化,对于人、小鼠、拟南芥等模式生物来说,基因注释相对完整,但对于研究没那么透彻的其他物种,我们可以用reads来优化基因结构,从而完善它们的基因注释信息。

Reads比对参考基因组后,我们用Cufflink软件对reads进行转录本重构,将重构结果与参考转录本序列进行比较,重构出来的转录本可能会延长基因注释的5’或3’端,由此实现优化基因结构的目的。

融合基因分析

这个分析做的公司并不多,基因融合现象发生在很多致命疾病中,如果是癌症等疾病的融合基因分析可以使用defuse软件, 利用reads的基因跨越以及一对reads的相对距离进行基因融合查找,当然,也可以使用BGI的SOAP系列,生信菜鸟团博客里面有详细描述软件的安装以及示例数据的测试使用。

结题报告能给用户的就是软件找到的可能的融合基因表格,表格里面可能有下面的内容:

SNP分析

SNP分析其实跟转录组分析关系不大,只要是测序数据都可以找SNP,当然,一般是WGS和WES这样的测序才会重点关注。

结题报告能给用户的就是找到的变异位点VCF格式记录文件,当然,流程化的做一些基本的注释也是必不可少的。

lncRNA分析

研究lncRNA其实有专门的lncRNA测序,主要分析点是lncRNA的调控功能,跟其它细胞体内的各种调控分子的关系等,如下图所示。

以上内容就是转录组报告中必有和最常见的一些内容,后续的分析还可以更多样化和个性化,但是公司的结题报告一般就到此为止了,而且很多公司就是给一个PDF文件以及一堆图表文件。

编辑校对:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知晓程序

四六级差一分没过,都怪我没早告诉你这些通关秘籍!

这两天在大学校园里。这也许是出现频率最高的几个词了。四六级没过没关系,大不了从头再来。

1183
来自专栏CodingToDie

编程伊始

在上大学前,我家并没有电脑,现在也没有。因为我父母并不会使用,我也不在家,他们感觉,买了放在那里不用也是浪费钱。

4449
来自专栏阮一峰的网络日志

元数据(MetaData)

元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 下面是契诃夫的小说《套中人》...

28510
来自专栏CDA数据分析师

如何系统地自学 Python?

是否非常想学好 Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓? 幸运的是,Python 是一门初学者友好的编程语...

1767
来自专栏生信宝典

从Richard Young教授的系列研究看超级增强子发现背后的故事 (附超级增强子鉴定代码)

1447

基因组测序简介

在Databricks中查看这篇文章的笔记形式

1965
来自专栏CDA数据分析师

如何系统地自学 Python?

是否非常想学好 Python,一方面被琐事纠缠,一直没能动手,另一方面,担心学习成本太高,心里默默敲着退堂鼓? 幸运的是,Python 是一门初学者友好的编程语...

1757
来自专栏一名叫大蕉的程序员

手把脚教你实现第一个在线预测系统No.21

本来呢,最近看了人类简史,想写一篇偏见相关的,思路还没整理好不好放出来,先写个技术的吧。最近真是忙成狗,搬职场,找房子租,参加各种各样的会议,还有开发任务,做屁...

17810
来自专栏AI派

还没准备好数据呢,为什么要着急用算法呢

开始之前,通知下我的读者,随着订阅读者越来越多,为了对读者们负责,有以下几件事情需要告知下:

785
来自专栏小樱的经验随笔

常用OJ名字+地址(自用)

常用OJ名字+地址 不定期更新,自己用,有补充的也可以给我说说哈。 中文 openjudge 地址:openjudge.cn 说明:北大提供的一个平台,学校可...

2614

扫描关注云+社区