专栏首页生信宝典转录组分析的正确姿势(第三版)

转录组分析的正确姿势(第三版)

转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化功能注释网络分析等。

转录组的测序分析也相对成熟,从RNA提取、构建文库、上机测序再到结果解析既可以自己完成,又可以在专业公司进行。

概括来看转录组的分析流程比较简单,序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅,可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的,有什么需要注意的,结果怎么解读,后续分析怎么做。这些只有自己动手操作过,才可能有理解。而理解了一个,再去做其它类型分析,也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复,并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度;而研究新转录本和可变剪接则需要更深的测序;一般来讲长RNA-seq文库测序深度满足可用reads20-30 million (如果测PE150,换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应,保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制,但记录下对应的操作时间和批次,最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化高颜值可定制在线绘图工具-第三版),从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起,这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼,做了批次效应矫正后,表达图谱按组织而非物种聚在一起了。

测序环节通常不需要自己操作,测序公司都很成熟,但测序的原理需要知道。这会影响到后续分析时参数的选择,比如知道什么是插入片段大小什么是链特异性测序,什么情况会有接头序列,双端测序如何测等。

获得数据后,就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否,指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响,同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解,是进行这些工作的基础。

39个转录组分析工具,120种组合评估(转录组分析工具哪家强)中讲述了如何选择、评估合适的比对工具,序列拼装工具,定量工具和差异分析工具。值得我们在进入正式的分析之前,仔细阅读。另外类似的评估文章,还有几篇,都可以一并读一下,这样在后期分析时对工具的选择和使用才更得心应手。

工具比较类文章一般只告诉你做了什么,不告诉你这么做的原因是什么,而且每一步细分开来又有很多小细节需要注意,比如在比对环节就会涉及到:不同的样本如何选择合适的基因组和注释文件,什么样的软件支持Junction reads的比对,什么样的比对率是合适的,比对质量怎样,测序中RNA有无降解或选择偏好性,测序饱和度如何等。

这些可能都不会体现在最终的结果中,但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的,提供了格式正确的输入,就可以得到输出,但输出正确与否,就得靠人的经验来判断了。

在后面的差异基因鉴定阶段,还存在把FPKM值转换为整数再提交给DESeq2做分析的,软件不报错,但结果不对。或者能顺着教程运行DEseq2分析,但换成自己的数据就不知道如何下手的 (DESeq2差异基因分析和批次效应移除)。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。这当然是一个耗时耗力的过程,那么有没有一个更好的方式呢?

生信宝典团队经过紧张的筹备和基于以往三次转录组培训,12次总培训的基础,对转录组课程进行大规模更新,在生信学习系列教程的基础上进一步拓展和深入,跟大家一起去走过这段历程。我们的口号是易生信,毕生缘,希望能通过短暂高强度的训练快速推进大家在生信分析领域的进展。

本文分享自微信公众号 - 生信宝典(Bio_data)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 转录组分析的正确知识都了解了吗?

    转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化、功能注...

    生信宝典
  • NGS基础 - 高通量测序原理

    NGS系列文章包括NGS基础、转录组分析、ChIP-seq分析、DNA甲基化分析、重测序分析五部分内容。 NGS基础系列文章包括高通量测序原理,测序数据获取和质...

    生信宝典
  • 测序发展史:150年的风雨历程

    生信宝典
  • 转录组分析的正确知识都了解了吗?

    转录组分析是目前应用最广的高通量测序分析技术之一。常见设计是不同样品之间比较,寻找差异基因、标志基因、协同变化基因、差异剪接和新转录本,并进行结果可视化、功能注...

    生信宝典
  • NGS基础 - 高通量测序原理

    NGS系列文章包括NGS基础、转录组分析、ChIP-seq分析、DNA甲基化分析、重测序分析五部分内容。 NGS基础系列文章包括高通量测序原理,测序数据获取和质...

    生信宝典
  • Control-Freec:检测拷贝数变异的神器

    Control-Freec 既可以检测拷贝数变异CNV,还可以分析杂合性缺失LOH。官网如下

    生信修炼手册
  • 魔方大数据(7)| 瀚海基因董事长贺建奎:大数据存储和分析依旧是基因测序的难题

    <数据猿导读> 测序仪这个行业与大数据不一样,大数据是瞬间爆发,但做测序仪,通常是要五年才能做起来。目前在国内,测序仪并不算是主流业务,而且大量数据都只专注在基...

    数据猿
  • 全长转录组分析之牛津纳米孔测序介绍

    同样的,因为生信技能树90%教程出自我本人,所以基本上我还没有涉猎到的项目就不太可能有教程,甚至该领域中文教程几乎是空白。好在我交友还算比较广,所以邀请了不同系...

    生信技能树
  • 用基因测序“治未病”

    大数据文摘
  • 基因测序的产业链及商业模式

    大数据文摘

扫码关注云+社区

领取腾讯云代金券