美女教授带你从统计学视角看转录组分析

引言

分子生物学的中心法则自1958年由Francis Crick提出到今年正好60周年,它描述了“DNA制造RNA,RNA制造蛋白质”的遗传信息的标准流程 [1]。十年前,第二代RNA测序技术(RNA-seq)的诞生及其迅速发展使得研究者可以在对RNA序列没有任何先验信息的情况下高通量地对全转录组进行测序 [2]。现如今第二代RNA测序技术已经成为了研究基因和RNA表达最常用的手段之一,它的广泛应用极大地促进了生物和医学领域的各类研究,包括对基因表达与调控,RNA可变剪切以及蛋白质翻译等多项生物过程的了解 [3]。具体见生信老司机以中心法则为主线讲解组学技术的应用和生信分析心得

为了回答各种生物问题,十年来不同领域的研究者已为第二代RNA-seq数据分析提出了超过2000种计算与分析方法 (39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版))。近日,加州大学洛杉矶分校(UCLA)的李婧翌(Jingyi Jessica Li)教授和她的学生李维(Wei Vivian Li)第一次从统计建模与分析的角度对第二代RNA测序数据的计算方法进行了总结和讨论,发表在最新一期的Quantitative Biology期刊中(Modeling and analysis of RNA-seq data:a review from a statistical perspective)4。该综述文章从四个层面(样本,基因,转录本,和外显子选择)对RNA-seq数据的分析方法进行了总结,旨在归纳看似不同的方法背后共通的统计假设和模型。生信宝典之前的总结在 转录组分析的正确姿势

样本分析层面:样本相似性度量

作者首先从样本分析层面上讨论了如何利用RNA-seq数据对来自同种或者不同物种的多种细胞类型的样本进行比较,从而研究基因表达机制在物种进化过程中的分化和保守现象。这就需要用到样品间的相似性度量来检测异常样品,进行样品聚类样品分类新细胞类型分析。

PearsonSpearman相关系数是最常用的计算相似性的度量,配合热图展示。但这种通过相关性推测转录组相似性的方式容易受持家基因的影响,并且相关性测量依赖于表达值的精确计算,信噪比低时结果稳定性差。

作者提出了TROM (Transcriptome overlap measure)的计算方式,采用”associated genes“而不是全部基因计算相关性。associated genes是指那些在样品间归一化得到的Z-score的值高于系统检测的阈值的基因。z-score计算见R语言 - 热图美化。作者也提供了R包TROM进行计算, 获得associated genes和进行overlap test,获得格式类似于相关性矩阵的TROM得分矩阵,用于后续分析。

另外还有其他度量方式,如偏相关系数 (partial correlation coefficient)指消除批次效应或其它影响因素后的相关性;

考虑到RNA-seq样品之间并不是线性相关的,信息论中的互信息(mutual information)可以计算非线性相关性。其它类似的还有条件互信息(conditional mutual information)。这些主要用在基因调控网路的构建上。具体见https://rdrr.io/cran/synRNASeqNet/man/parMIEstimate.html和。

直接降维的手段,如PCA、t-SNE和MDS, 见之前的文章:(一文看懂PCA主成分分析, 还在用PCA降维?快学学大牛最爱的t-SNE算法吧, 附Python/R代码)。

基因层面:基因表达动力学

其次,在基因分析层面上,作者着重讨论了两种最常见的基因表达数据分析:基因差异表达分析和基因共表达网络分析。

基因差异表达分析通过统计学的假设检验理论来研究哪些基因在不同条件下(比如实验组和对照组)存在差异表达。常用的数据标准化方法如FPKM/RPKM/TPM,是一种定量方式,一般可比,但也会有protocol特异的偏好。一般不用于差异基因检测。

基于分布的标准化方式:如DESEq, DESeq2, TMM和quantile normalization等,基于不同样品基因表达水平分布相似的原则进行计算。具体计算如下(代码比文字易于理解)。

基于基因的标准化方式是使不同样品间非差异基因或持家基因的表达水平一直,如PoissonSeq

基于最广泛使用的Negative Binomial模型概括了检验基因差异表达的6个核心步骤:估算基因表达和离散度,估算样品间差异统计量,推导H0下的统计量,计算每个基因的统计了,计算P-value,多重假设检验校正。操作见DESeq2差异基因分析和批次效应移除

基于log转换后的基因表达符合正太分布的模型,如voom (线性模型分析多因素设计,定量加权解释表达变化,经验贝叶斯估算)和sleuth(log转换的基因表达作为线性模型的响应变量,拆解为3个成分:样品间差异、生物自然噪音、推测噪音,通过bootsrap-test估计零假设和计算p-value)。

注意点:重复次数,FDR,没有方法是最优的,时间序列数据使用maSigPromultivariate empirical Bayes statistic (MB statistic)

基因共表达网络分析: 建立基因的共表达关系,推测未知基因的功能。常用的有WGCNA,检测共表达基因簇和模块。具体见WGCNA分析,简单全面的最新教程

配合Cytoscape使用更佳:

转录本分析层面: 重构和量化全长转录本

在转录本分析层面上,大部分研究的重心在于通过重建和量化全长转录本来研究可变剪切在细胞分化和疾病发展等过程中的作用。这两项任务(重建和量化)对于包括人在内的复杂生物体来说仍然非常困难,因为第二代测序技术一般产生的是不超过300个碱基( bp)的短片段(reads), 但人体内全长转录本的平均长度在1700 bp左右,而短片段导致的信息损失只能依靠统计建模来推断和弥补。作者将现有的转录本量化方法分为两类:基于极大似然分析或基于回归分析。前者将转录本表达量作为参数建立混合概率模型(mixture model),通过最大化似然函数来求解最优参数估计。后者将转录本表达量作为系数建立回归模型,通过数据拟合来求解最优系数估计。这里面涉及的软件有Cufflinks, Stringtie, Salmon, Kallisto, RSEM等,其性能评估见39个转录组分析工具,120种组合评估(转录组分析工具大比拼 (完整翻译版))

外显子分析层面:计算单个外显子的PSI

在外显子分析层面上,研究重心在于量化单个外显子在可变剪切的过程中存留在全长转录本中的可能性 (percentage spliced in, PSI),是一个较为可靠的可变剪接分析方式。常用工具有MISOrMATS。基因组浏览器在此有重要的应用,可视化的reads分布模式对应研究不同可变剪接是必须的,从图谱看到差异,再设计工具寻找差异。

文章的最后作者对RNA-seq统计建模过程中仍然存在的难点进行了总结,并简要讨论了RNA-seq在RNA编辑和非编码RNA等相关问题中的应用。近年来兴起的单细胞RNA测序技术将转录组研究提高到单细胞精度,也给新数据的统计建模带来了新的机遇和挑战,可以参考The Human Cell Atlas White Paper了解更多。

本文主要是帮助师姐推荐宣传Quantitive Biology杂志,如对这篇文章原文有任何疑问欢迎联系QB微信号:13269084698,或直接在文末留言,QB将邀请作者为您解答。

附上两个完整的分析流程

转录组分析培训班第4期

在广大粉丝的期待下,《生信宝典》联合《宏基因组》在2018年11月16-18日北京鼓楼推出《转录组数据分析》专题培训第四期,为大家提供一条走进生信大门的捷径、为同行提供一个转录组实战分析学习和交流的机会、助力学员真正理解分析原理和完成实战分析,独创四段式教学(3天集中授课+自行练习2周+再集中讲解答疑+上课视频回看反复练习),“教—练—答—用”四个环节统一协调,真正实现独立分析大数据

关于学习生物信息学分析的重要性,请阅读《生物信息9天速成班—成为团队中不可或缺的人》

本课程一共3天,每天6节课,共18节课,全部课程均理论与实战结合(只要课上讲的都是可以带你自己实现的分析)。从分析平台搭建、Linux和R基础、图表解读和实战、转录组设计、分析标准流程、差异基因分析、功能富集分析、及各类高级分析(差异剪接、WGCNA分析、通路图绘制等),和CNS级图片修改排版。3天时间,老司机带您完成自学需要3个月甚至是1年的崎岖之路,助力您真正玩转转录组分析。

课程大纲

每节课1小时一个主题,理论结合实战,学懂原理,实战实操,全是老司机多年经验和代码的无私分享。下面是课程安排,如11代表第一天第一节课,26代表第二天第六节课,41为两周后的线上集中视频答疑。这次课程重点做了调整,侧重后期高级分析,弱化流程性分析。

编号

主题

简介

11

转录组概述

转录组设计、应用、批次效应等

12

转录组分析流程简介

基于/不基于比对的分析流程讲演

13

转录组流程配置

Linux下一键配置转录组分析工具集

14

Salmon定量实战

不基于比对直接定量基因和转录本的表达

15

STAR/HISAT2比对定量实战

比对定量和比对质量评估

16

转录组分析案例

转录组分析案例

21

二代三代测序原理介绍

建库测序过程及注意事项

22

差异基因分析

DESeq2差异基因分析

23

富集分析

GO/GSEA富集分析

24

WGCNA分析

基因加权共表达网络分析

25

Cytoscape绘制网络图

Cytoscape绘制共表达网络和调控通路网络图

26

常见图表解读

常见图表解读和Illustrator制作CNS标准图版

31

基因表达资源数据库

在线查询多组织器官基因表达,癌症特意表达基因筛选

32

可变剪接分析

差异剪接分析

33

无参转录组组装和注释

无参转录组组装和注释

34

多组学分析示例讲解

多组学分析示例讲解

35

考试、圆桌论坛

自评学习效果、知识点回顾

41

答疑-线上

答疑、考试内容串讲

教程内容简介如下:

转录组的应用、设计和案例分享

  1. 转录组学研究技术介绍
  2. 转录组学实验设计和测序原则、注意事项
  3. 二代、三代测序过程和原理解析
  4. 转录组学文章案例分析
  5. 在线基因表达资源数据库

转录组分析流程实战

  1. 转录组分析流程评估
  2. 测序数据质量评估和清洗
  3. 不基于比对的差异基因分析
  4. 基于比对的差异基因分析
  5. 转录本组装和选择性剪接分析
  6. 目标基因GSEA/GO富集分析

常见图表解读和图形编辑排版

在培训上,结合发表高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对大家使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

成果发表是科研过程中不可缺的一部分,发表成果又少不了图形展示。文章图表排版是否整齐规范、协调一致、重点突出对一篇文章的发表也是有不少贡献的。之前推出的文章发表图的修改和排版讲演了部分图形编辑和排版操作,本次培训也会实践从原始图形、到细节修饰再到排版发表的整个过程和注意事项。

基因组浏览器用于多组学数据的可视化和关联分析,本地有IGV,在线有UCSC genome BrowserEpigenomebrowser,各有特色。

转录组高级分析

  1. WGCNA基因共表达分析
  2. WGCNA基因、表型关联分析
  3. Cytoscape 共表达网络绘制
  4. 转录组常见图形在线绘制
  5. KEGG/Reactome通路图绘制,表达映射
  6. 基因互作的文献挖掘和数据库挖掘展示

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2018-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PaddlePaddle

用深度学习预测世界杯胜率,有多大把握?

预测其实是需要综合多方面因素考量的,数据维度可能爆炸到无法统计,同样如果想借助深度学习预测,在开始之前一定要确保避开这几个雷区

11930
来自专栏灯塔大数据

从国足说起,网络流算法远比你想的要好玩

? 这个问题的由来是想起来11月18日将会有国足世预赛的比赛,于是今天去看了看国足目前在小组中的积分。在积分榜中,我们可以看到与中国同组的马尔代夫和不丹都已经...

29150
来自专栏量子位

论PS的功力,英伟达的AI这次谁也不服

前一阵子,流传过这样一个段子:“甲方不要PS!让我们用Photoshop做!”足以说明开头的结论。

12320
来自专栏AI科技评论

给正在写Paper的你:如何在成千上万的arXiv论文中脱颖而出?

本文为雷锋字幕组编译的技术博客,原标题 Heuristics for Scientific Writing (a Machine Learning Perspe...

41480
来自专栏AI研习社

博客 | 滴滴 KDD 2018 论文详解:基于强化学习技术的智能派单模型

国际数据挖掘领域的顶级会议 KDD 2018 在伦敦举行,今年 KDD 吸引了全球范围内共 1480 篇论文投递,共收录 293 篇,录取率不足 20%。其中滴...

46720
来自专栏数据派THU

17张思维导图,一网打尽机器学习统计基础(附下载)

来源:大数据文摘 作者:小越酱 原文: https://zhuanlan.zhihu.com/p/25884239?utm_medium=social&utm_...

1.4K90
来自专栏生信技能树

RNA-seq数据分析指南

五月份看了一篇2016年的RNA-Seq文献综述,那篇文献特别长,花了三四天时间才看完。当时为了做组会文献报告做了一些许总结,以ppt的形式呈现出来。 内容 前...

2K70
来自专栏CSDN技术头条

用最通俗易懂的方式打开机器学习!

在一个风和日丽的周末...... ? ? ? ? ? ? ? 故事一:瑞雪兆丰年 我们中国有一句关于农业生产的古老谚语:瑞雪兆丰年。就是说,如果前一年冬天下雪...

22760
来自专栏钱塘大数据

【推荐阅读】如何看穿数据可视化的谎言?

以前我们看到一个做得很烂的图表,或者穿帮的数据可视化作品时,往往是将它们嘲笑一番也就算了。但有些时候,尤其是刚过去的这一年,我们好像更难分辨一个可视化作品是单纯...

31870
来自专栏AI科技大本营的专栏

AI 行业实践精选:食向量——运用机器智能提高烹饪技能

【AI100 导读】人工智能将人类的思维转化为程序和算法,用计算机的、高速运行能力来提高效率,在一定程度上能替代人的部分功能。如今,随着人工智能的发展,出现了智...

353100

扫码关注云+社区

领取腾讯云代金券