转录组测序问题集锦(一)

转录组测序技术(RNA-seq)的应用领域十分广泛,诸如生理调控,环境胁迫,疾病机制研究等方面,想必很多小伙伴的实验课题都有涉及。面对庞大的测序结果,心中是否有一些疑问和困惑呢?今天小美就给大家准备了5个转录组测序中的常见问题,希望其中恰好也有你想要问的问题哦~!

1.RNA-seq分析中几种表达量计算方法有何不同?

RPKM(ReadsPer Kilobases per Million reads):即每百万reads中,每个基因以一千个碱基为单位,比对上的reads数。计算公式:RPKM=(1000000*C)/(N*L/1000),C 为比对到gene A的reads数,N为比对到所有gene的总reads数,L为gene A的碱基数。RPKM法能消除基因长度和测序量差异对基因表达量计算的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。

FPKM(FragmentsPer Kilobases per Million reads):与RPKM极为相近。二者区别仅在于,Fragments与Reads。RPKM主要针对早期的SE(单端)测序,FPKM则是在PE(双端)测序上对RPKM的校正。Reads是指测序数据中的每一条Reads,而Fragments则是指每一段用于测序的核酸片段(建库时打断获得)。

TPM(Transcripts Per Million reads):即每百万reads中来自于某转录本的读段数。TPM和FPKM一样,都对基因长度和测序深度进行了均一化。但不同的是,FPKM是先对测序深度进行均一化,然后对基因长度进行均一化;而TPM正好相反。TPM的均一化过程使得不同样本中的总表达量一致,这样可以更直观地进行表达量的比较。

2.某基因在两个样本中表达量差别很大,分析结果却是非显著差异基因,这是为什么?

差异基因的筛选是基于统计学意义的,不能仅仅通过一个基因在两个样本中表达量数值的大小判断差异表达是否显著。差异显著情况可通过矫正后的p-value来看,矫正后的p-value越小,差异越显著。同时也可结合log2Foldchange值来判断差异的大小情况,log2Foldchange越大,差异倍数越大。

3.我只关注脂肪代谢相关的基因,能否只提取这部分基因来做差异分析?

不能。差异分析是基于整体来做的,需要用全部read count进行差异分析,若使用部分基因做分析,会破坏数据整体的特点,如测序深度、reads分布特征等,所以不推荐抽取部分来做差异分析。

4.真核de novo转录组项目,想要挑选差异表达基因做验证,应该优先考虑差异倍数大的基因还是在六大数据库中均有注释信息的基因?

注释到的基因数量与研究物种及选用的数据库有关,现有数据库中关于该物种及其相近物种的注释信息越全,则注释率也会越高。NR数据库作为NCBI主要数据库之一其库容较大,通常情况下能够注释到较多基因,但其中未验证的信息也较多,且很多基因功能描述模糊,会影响我们对基因功能的辨识,因此结合其他数据库注释结果综合考量更为妥当。验证实验需结合具体的生物学意义。差异基因较多时可通过功能注释帮助我们缩小筛选范围,在其中挑选差异倍数大,表达量较高的基因进行验证,成功率会较高。

5.为什么转录组测序结果与qPCR验证结果会出现不一致的情况?

a.实验样本搞反导致的结果;

b.没有使用与RNA-seq同一批样本进行验证;

c.挑选的基因表达差异并不显著,或者挑选的是差异基因但表达量较低;

d.两种方法本身就不同,RNA-seq是大规模筛选用的,反应样本整体的基因表达变化趋势,但不能保证每个基因的变化趋势都与qPCR一致。存在一定量的不一致情况也属正常。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180117G0OSF100?refer=cp_1026

扫码关注云+社区