转录组分析的正确姿势

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化功能注释网络分析等。

转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。

概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

而且现在三代测序火起来了,该怎么去选择呢? 三代测序能帮我们解决什么问题,不能做什么,有什么需要注意的,分析起来有什么不同,二代-三代如何统一分析?也是我们面临的一个新问题。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化高颜值可定制在线绘图工具-第三版),从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?

生信宝典团队经过紧张的筹备,决定推出一系列的针对生信学习和高通量分析的兴趣小组(在生信学习系列教程的基础上进一步拓展和深入),跟大家一起去走过这段历程。我们的口号是易生信,毕生缘,希望能通过短暂高强度的训练快速推进大家在生信分析领域的进展。

但生信学习是个缓慢的过程,需要教、学、练、改不断的循环。我们希望能通过系列课程,再加上四段式培训模式集中讲解实战(2天)-自行练习(5天)-再讲解答疑考核(2天)-后续视频观摩和群内讨论跟大家一起探索如何尽可能快的学会生信,学到可以自己做,有问题自己可以解决的程度。点击阅读原文可查看详细信息。

课程简介

一、转录组的应用、设计和案例分享

  1. 转录组学研究技术介绍
  2. 转录组学实验设计和测序原则、注意事项
  3. 转录组学文章案例分析
  4. 在线基因表达资源数据库

二、转录组分析流程实战

  1. 测序数据质量评估和清洗
  2. 基于比对的差异基因分析
  3. 不基于比对的差异基因分析
  4. 转录本组装和选择性剪接分析
  5. 目标基因富集分析

三、转录组高级分析

  1. WGCNA基因共表达分析
  2. WGCNA基因、表型关联分析
  3. Cytoscape 共表达网络绘制
  4. 转录组常见图形在线绘制

四、三代测序技术概述

  1. PacBio和Oxford Nanopore测序的原理
  2. 三代测序的特点和应用
  3. 三代测序在转录组研究的优势和案例分享

五、三代测序基本分析流程

  1. 原始测序序列去除接头和错误序列
  2. 提取环形一致序列读长(CCS reads)
  3. CCS reads分类(包括全长和非全长CCS reads)
  4. CCS reads聚类(根据CCS reads序列的相似性)获得最终的转录本集合
  5. 最终转录本比对回基因组
  6. 转录本定量和可变剪接分析

原文发布于微信公众号 - 生信宝典(Bio_data)

原文发表时间:2018-04-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

2433个乳腺癌患者的173个基因的突变全景图

乳腺癌具有患者间与同一患者肿瘤内的基因组变异性。以患者间的异源性分类早期乳腺癌生物亚型,现在临床对乳腺癌患者通常是观察 morphological assess...

1462
来自专栏生信小驿站

使用RNA-seq数据通过网络熵评估肿瘤内异质性摘要介绍

肿瘤内异质性(ITH)出现在肿瘤进展、转移和复发的不同阶段,而这些对于临床应用是重要的。我们使用来自肿瘤样品的RNA测序数据,并根据生物网络状态测量ITH水平。...

961
来自专栏生信技能树

WGCNA分析+公共数据库挖掘你感兴趣的癌症

原文链接: Application of weighted gene co-expression network analysis to identify ke...

1713
来自专栏AI科技评论

学界 | 斯坦福大学新 AI 算法,凭照片辨别出你是不是“Gay”

“有的细节,人无法辨认,不等于机器也不行;比如通过脸部的细微特征来判断这个人的性取向。” 斯坦福研究员 Michal Kosinski 如是说。AI科技评论获得...

2868
来自专栏量子位

AI模拟人脑新突破:新型人造突触研究已公布

安妮 编译自 PHYS.org 量子位出品 | 公众号 QbitAI 人工智能发展面临的重要挑战之一是理解人类大脑,并弄清如何去模仿它。 近日,一篇刊登在《AC...

3357
来自专栏思影科技

面向工作记忆过程的双向额顶振荡系统

最近,来自加利福利亚大学Helen Wills神经科学研究所的学者通过研究表明在工作记忆过程中,前额叶皮质区与大脑后皮质区之间具有一套完整的平行双向神经振荡系统...

2815
来自专栏镁客网

CNBP研究人员改变纳米结构,提升癌症靶向药物效率 | 热点

近日,纳米生物光子学中心(CNBP)的研究人员开发了一种针对癌症的新靶向治疗方法。据报道,该化疗药物被包裹在称为脂质体的“纳米气泡”中,然后通过应用X射线辐射将...

893
来自专栏ATYUN订阅号

机器学习工具可以发现肿瘤中的突变,比现有模型更准确

癌症肿瘤不断生长和进化,它们的DNA也是如此。究竟DNA如何变化是重要的信息,因为它会影响医生的治疗决策。

1314
来自专栏生信技能树

2019年2月份第1周文献分享(总第53周)胃癌的类器官研究(附视频)

而且通过形态学,WES和RNA-seq数据说明了其研究团队构建的类器官可以比较好的模拟其对应的肿瘤,包括 regional heterogeneity and ...

1574
来自专栏生信小驿站

Potent immunogenicity in BRCA1-mutated patients with high-grade serous ovarian carcinoma摘要介绍

高级别浆液性卵巢癌(HGSOCs)是免疫检查点抑制剂(ICIs)效果不理想的肿瘤之一。因此必须开发可行的生物标志物,用于鉴定响应候选者并指导HGSOC患者的精确...

991

扫码关注云+社区