学习
实践
活动
工具
TVP
写文章

lncRNA实战项目-第五步-差异表达的mRNA和lncRNA

响应生信技能树的号召:lncRNA数据分析传送门, 一起来一个lncRNA数据分析实战!

很明显,得到了表达矩阵之后,根据上面的样本信息,可以按照年龄,性别,取样部位来进行分组找差异。

可以参考:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

上一步骤得到了表达矩阵,两个样本分别是F_1yr.OC和M_1yr.OC, 所以接下来的差异分析就是比较1岁猕猴脑OC区域女性和男性的差别,差异分析的分析方法很多,主要根据前面标准化的方法,有基于counts的差异分析,也有基于标准化后的FPKM,TPM等的差异分析。

常见的R包有(摘自https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts):

edgeR (Robinson et al., 2010)

DESeq / qDESeq2 (Anders and Huber, 2010, 2014)

DEXSeq (Anders et al., 2012)

limmaVoom

Cuffdiff / Cuffdiff2 (Trapnell et al., 2013)

PoissonSeq

baySeq

作业里给的参考是一步法差异分析,是对常见的R包做了下封装,包括了对转录组的raw counts数据分析DEseq2包和edgeR包,及对于芯片等normalization好的表达矩阵数据的limma和t.test等。用的时候只要设置好表达矩阵和分组矩阵,然后选择特定的方法,一步就可以进行差异分析。

但是这里的样本是无生物学重复的,无重复的数据做差异分析是一件很麻烦的事,可靠性都不能保证。。。但是目前由于测序的价格,还有样本自身的珍贵稀缺性,部分实验设计仍然是没有生物学重复的。对于无重复样本的差异分析有几种方法可以选择,如edgeR,DEGseq和GFOLD等。下面分别尝试edgeR,DEGseq及GFOLD:

edgeR做无重复样本的差异分析

edgeR针对无重复样本给出了四条建议,第一条建议是仅分析MDS plot和fold changes,不做显著性分析;第二条建议是设置合适的离散度值,然后做个exactTest 或glmFit;第三条看不懂;第四条建议是基于大量的稳定的参照转录本。

edgeR

DEGseq对无重复样本差异分析

也有推荐DEGSeq 中MARS方法的(MARS: MA-plot-based method with Random Sampling model)。

MA.plot

GFOLD对无重复样本进行差异分析

该软件称尤其适合做无重复样本的差异分析,他对foldchange 的计算考虑到posterior distribution,即克服了pvalue评估显著性的缺点,同时也克服了 fold change 在评估低counts 数的gene时的缺点。

下载软件:

安装GFOLD时,需要先安装gsl,然后再编译安装gfold。

该软件的功能包括5部分:

1)Count reads and rank genes;

2)Count reads;

3)Identify differentially expressed genes without replicates;

4)Identify differentially expressed genes with replicates;

5)Identify differentially expressed genes with replicates only in one condition.

下面是无重复样本计算差异的例子:

对于前面得到的counts列表(hisat_matrix.out)每个样本单独分开,并命名为samplename.read_cnt(一定要加后缀.read_cnt).

这里查看下F.OC.read_cnt是否有头文件,若有最好注释掉,否则后面差异结果有错位。然后用gfold diff 一步就可以求出差异基因。输出文件包含4列,第一列GeneID, 第二列是gfold值,gfold值的正负对应着基因的上调和下调,gfold=0认为是无差异的,E-FDR对无重复样本总是1,第四列是log2fold change。

上调基因:4324,下调基因:4240,差异变化阈值设置gfold为1时,上调的基因有83个,下调有97个。

差异基因初步统计

用edgeR共筛选到1322个差异显著基因(筛选条件:PValue1); 用DEGseq共筛选到743个差异显著基因(筛选条件:abs(log2(Fold_change) normalized ) >1 & p-value < 0.05 & q-value(Storey et al. 2003) 1 && gfold

参考资料:

一步法差异分析:https://github.com/jmzeng1314/my-R/tree/master/DEG_scripts

从零开始学转录组(7):差异基因表达分析

从零开始学转录组(8):富集分析

RNA-seq项目设计:生物学重复和单个样本测序量对结果的影响

clusterProfiler参考文档

差异基因分析

文献:Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing

编辑:jimmy

后续分析,请大家持续关注

~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180216G06GJQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券