RNA-seq老司机领读转录组结题报告

其实大家更关心的是数据处理问题,为此我们在前期已经推送过两篇相关内容,如果还没看过的朋友可别落下。

WGS,WES,RNA-seq组与ChIP-seq之间的异同(点击查看原文)

做过1000遍RNA-seq的老司机告诉你如何翻车(点击查看原文)

因为做了多年NGS组学数据处理看了不少业内知名公司有参转录组结题再结合自己的一些经验, 生信技能树公众号将系统整理多种组学分析流程和大家分享,如果不想错过就关注我们的公众号然后置顶吧~

RNA-seq的分析流程

这一次我们首先了解RNA-seq的分析流程

总的来说,各种有参组学分析要点大同小异,利用主流分析软件结合数据库来解释分析结果。一份报告可以出近百张花花绿绿的figures,我们先看看大致内容。

标配内容:(不可能没有的)

  • 测序数据的一些统计及过滤
  • 比对情况的说明及统计
  • 基因表达信息的统计
  • 差异分析表达富集分析(GO/KEGG等数据库注释)

常见内容:(基于不同需求基本都有的)

  • 基于转录本的可变剪切统计
  • 新转录本探索及注释
  • 转录本结果优化
  • 融合基因分析
  • SNP分析
  • lncRNA分析
  • 蛋白互作网络分析
  • 转录因子相关分析

说明:如果专门针对lncRNA进行深入分析,对建库方式和测序深度都有不同的要求。

下图就是一个最常见基本的解题报告目录

下面针对一些内容进行具体说明。

测序数据的一些统计及过滤

不管是什么NGS组学数据,首先结题报告要秀的就是自己给客户的测序数据如何如何的好,无非就是fastqc或者fastx-toolkit等软件对fastq文件的简单处理再整理成表格图形展示。包括phred值、碱基组成,GC含量,接头以及Duplication level等内容,这就需要过滤掉低质量的测序数据,过滤前后都需要可视化图表给客户做对比。还可以简单做一个测序饱和度分析,还有随机性分析等。

比对情况的说明及统计

选择好物种,参考基因组版本后可以比对到参考基因组和参考转录组,都给出比对统计信息,一般如下:

  • Total Reads : 总的reads数量
  • Unmapped Reads : 未比对上参考基因组的reads数及占总数的比例
  • Unique Mapped Reads : 唯一比对上参考基因组的reads数及占总数的比例
  • Multiple Mapped Reads : 多处比对上参考基因组的reads数及占总数的比例

比对不仅仅是看测序数据的利用率,还要分析参考基因组本身被测的情况:

  • All Reference Genes : 参考基因组的基因总数
  • Known Gene Num : 检测到的已知基因数目 (比率=已知基因数目/参考基因组的基因总数)
  • New Gene Num : 检测到的新基因数目

还可以用一些RNA-seq专用QC软件看看reads的5~3覆盖情况,reads在不同的genomic feature(intron,exon,UTR,TSS,TTS,intergenic)的分布。

基因表达相关套路分析及展现

这个里面包含好几个步骤,适用于任何表达矩阵数据,可以是芯片得到的,也可以是测序得到的。

首先要对比对好的bam文件根据基因组注释文件拿到基因的表达量矩阵,根据分组做差异表达分析。

针对这个流程开发的软件非常多,主要有6个组合,如下:

  • Tophat-Cufflink-Cuffdiff
  • Subread-featureCounts-DESeq2
  • STAR-RSEM-EBSeq
  • Bowtie-eXpress-edgeR
  • kallisto-sleuth
  • HISAT-StringTie-Ballgown

表达量得到后也有一些QC,包括表达丰度统计,重复性检验,相关性等。结题报告能给用户的就是表达矩阵以及差异分析结果表格,差异分析的火山图,热图等信息。

有了差异分析结果,就需要对上调下调基因进行一系列注释。

这样就有3个基因集合,分别是上调的几百个基因下调的几百个基因,还有上下调合起来的近千个基因

一般的GO/KEGG注释,都是超几何分布检验,所以这个分析跟前面的表达矩阵已经没有什么关系了。

结题报告能给用户的就是GO/KEGG注释的P值,一般用户需要关心的,也就是显著部分。但不得不提的是GSEA是针对表达量矩阵进行富集分析,有点区别。

基于转录本的套路分析

主要就是可变剪切统计,新转录本探索及注释,转录本结构优化等内容。

这些也有标准的软件来做,公司的工作就是把流程搭建好,跑个标准分析即可。

比如可以用ASprofile 软件对 Cufflinks 预测的转录本的可变剪切事件进行分类统计,常见可变剪切事件如下所示:

  • AE: Alternative exon ends (5' , 3' , or both) ----- 可变 5' 或3' 端剪切
  • XAE: Approximate AE (5' , 3' , or both) ----- 近似可变 5' 或3' 端剪切
  • IR: Intron retention ----- 单内含子保留
  • XIR: Approximate IR ----- 近似单内含子保留
  • MIR: Multi-IR ----- 多内含子保留
  • XMIR: Approximate MIR ----- 近似多内含子保留
  • TSS: Alternative 5' first exon ----- 第一个外显子可变剪切
  • TTS: Alternative 3' last exon ----- 最后一个外显子可变剪切
  • SKIP: Skipped exon ----- 单外显子跨跃
  • XSKIP: Approximate SKIP ----- 近似单外显子跨跃
  • MSKIP: Multi-exon SKIP ----- 多外显子跨跃
  • XMSKIP: Approximate MSKIP ----- 近似多外显子跨跃

可以将Length >= 200bpexon number >=2 作为可靠的新基因的转录本筛选条件,新基因的转录本需要做Nr, KEGG的数据库注释。

至于基因结构优化,对于人、小鼠、拟南芥等模式生物来说,基因注释相对完整,但对于研究没那么透彻的其他物种,我们可以用reads来优化基因结构,从而完善它们的基因注释信息。

Reads比对参考基因组后,我们用Cufflink软件对reads进行转录本重构,将重构结果与参考转录本序列进行比较,重构出来的转录本可能会延长基因注释的5’或3’端,由此实现优化基因结构的目的。

融合基因分析

这个分析做的公司并不多,基因融合现象发生在很多致命疾病中,如果是癌症等疾病的融合基因分析可以使用defuse软件, 利用reads的基因跨越以及一对reads的相对距离进行基因融合查找,当然,也可以使用BGI的SOAP系列,生信菜鸟团博客里面有详细描述软件的安装以及示例数据的测试使用。

结题报告能给用户的就是软件找到的可能的融合基因表格,表格里面可能有下面的内容:

SNP分析

SNP分析其实跟转录组分析关系不大,只要是测序数据都可以找SNP,当然,一般是WGS和WES这样的测序才会重点关注。

结题报告能给用户的就是找到的变异位点VCF格式记录文件,当然,流程化的做一些基本的注释也是必不可少的。

lncRNA分析

研究lncRNA其实有专门的lncRNA测序,主要分析点是lncRNA的调控功能,跟其它细胞体内的各种调控分子的关系等,如下图所示。

以上内容就是转录组报告中必有和最常见的一些内容,后续的分析还可以更多样化和个性化,但是公司的结题报告一般就到此为止了,而且很多公司就是给一个PDF文件以及一堆图表文件。

编辑校对:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-04-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/3/11

换了个新职位非常忙,我还会每周更新,但是估计是没时间仔细读论文了,所以评论可能就没什么深度了,精力有限,哎。 1. DeepMind新RL学习方式SAC-X,尝...

2966
来自专栏麻文华的专栏

证件识别技术进化史

当我们在手机APP端绑定银行卡、认证个人资料时,用拍照代替手工录入,手机神奇滴识别了我们的证件类型和格式,并从中找到了它所想要的信息,这一点是否也是很智能的呢?

1.4K1
来自专栏生信技能树

lncRNA数据分析传送门

step1: 计算资源的准备 如果有差不多配置的服务器,就可以从SRA/FASTQ格式数据开始走全套流程。不懂配置,请看前面转录组和表观组的传送门。 如果只有个...

3939
来自专栏生信技能树

【直播】我的基因组55:简单的PCA分析千人基因组的人群分布

好久不见,我们的直播又开始啦!今天,我们主要讲的是人群分布,先用简单的PCA来分析一下千人基因组的人群分布吧! PCA分析,就是主成分分析,我博客有讲过(点击最...

30111

利用基因突变和K均值预测地区种群

这是一篇关于西北基因组中心的Deborah Siegel和华盛顿大学联合Databricks的Denny Lee,就ADAM和Spark基因组变异分析方面的合作...

23310
来自专栏AI科技大本营的专栏

AI 技术讲座精选:利用深度学习分析医学图像

【AI100 导读】当下深度学习的研究领域仍然停留在通用图像的层面上,但我们的目标是将这些研究应用于医学图像,提升医疗保健行业的服务水平。在这篇文章中,作者会从...

2697
来自专栏大数据文摘

斯坦福大学怎样讲“情感分析”

1223
来自专栏量子位

真实到可怕!英伟达MIT造出马良的神笔

拿到神笔的马良,可以画物品、画动物、画食物,而且,这些画作都可以一秒钟从画面上出来,变成真实世界中存在的东西。

603
来自专栏PHP技术

基于用户投票的排名算法(一):Delicious和Hacker News

互联网的出现,意味着"信息大爆炸"。 用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。 各种...

3108
来自专栏量子位

如何自制会跳舞的AI小姐姐?这有一份易上手的开源攻略

身材苗条,动作有力,姿势优美,视频片段里的小姐姐跳得行云流水,颇有C位出道的气势。

823

扫码关注云+社区