打通转录组测序数据分析的最后一公里

生信技能树

发布于 2022-07-26 09:52:05

6210

发布于 2022-07-26 09:52:05

文章被收录于专栏：生信技能树

传统bulk转录组测序项目大家都很熟悉了，我们的明码标价之转录组常规测序服务（仅需799每个样品） 和 明码标价之普通转录组上游分析 可以帮助大家快速拿到表达量矩阵，而明码标价之转录组下游分析仅需800元 又可以进行最起码的差异分析，富集分析，以及各种各样的可视化。

因为现阶段传统bulk转录组测序项目成为了标准品，无论大家在哪个公司测序都是几百块钱一个样品，简单的3分组的6个样品，就包括了定量和普通差异分析服务，因为都是流程化的。但是有一些情况下是大家并不想自己重新收集样品或者联系公司做转录组测序服务，而是希望可以直接分析已经发表的文献里面的数据，找到一些感兴趣的基因和通路。我们也提供了大量的教学视频和代码，见：

视频免费在B站：https://www.bilibili.com/video/BV12s41137HY 大家学习的时候记得发弹幕交流哈。
也有微云离线版本视频下载本地播放：
- 上游分析视频以及代码资料在：https://share.weiyun.com/5QwKGxi
- 下游主要是基于counts矩阵的标准分析的代码 https://share.weiyun.com/50hfuLi
RNA-SEQ 实战演练的思维导图：文档链接：https://mubu.com/doc/38y7pmgzLg 密码：p6fo

但是这些代码也是稍微有一点点门槛的，就是需要大家有基于R语言的统计可视化，以及基于Linux的NGS数据处理的基础：

把R的知识点路线图搞定，如下：

了解常量和变量概念
加减乘除等运算（计算器）
多种数据类型（数值，字符，逻辑，因子）
多种数据结构（向量，矩阵，数组，数据框，列表）
文件读取和写出
简单统计可视化
无限量函数学习

Linux的6个阶段也跨越过去，一般来说，每个阶段都需要至少一天以上的学习：

第1阶段：把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅，主要目的就是去可视化，熟悉黑白命令行界面，可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
第2阶段：做到文本文件的表格化处理，类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余、查找、切割、替换、合并、补齐，熟练掌握awk、sed、grep这文本处理的三驾马车。
第3阶段：元字符，通配符及shell中的各种扩展，从此linux操作不再神秘！
第4阶段：高级目录管理：软硬链接，绝对路径和相对路径，环境变量。
第5阶段：任务提交及批处理，脚本编写解放你的双手。
第6阶段：软件安装及conda管理，让linux系统实用性放飞自我。

假如你确实R基础还不到位

那么我们给大家的代码你调试起来应该是会耗费很多时间，但是只需要你会安装R语言环境以及R包，我们有一个一条龙的函数，可以代替大家完成全部的转录组2分组分析，包括：

7个质量控制图
3次差异分析的火山图和热图，以及对应的上下调基因集txt文本文件
上下调基因集的超几何分布检验的kegg的功能注释后的pdf和txt文本文件
差异分析的gsea分析的kegg的功能注释后的pdf和txt文本文件
差异分析的gsea分析的Hallmark数据库的功能注释后的pdf和txt文本文件
针对Hallmark数据库的gsva后的热图以及分组的差异

代码如下所示：

#  首先需要自己安装包 RNAseqStat2
# 代码是：devtools::install_github("xiayh17/RNAseqStat2")
library(airway)
library(RNAseqStat2)

data("airway")

row_counts <- as.data.frame(assay(airway))
group_list <- as.character(colData(airway)$dex)

data_i <- Create_DEGContainer(expMatrix = row_counts,
                              groupInfo = group_list,
                              caseGroup = "trt",
                              idType = "ENSEMBL")

data_o <- runALL(object = data_i,
                 dir = "output_test_2022-3-4",
                 parallel = F)

上面的runALL函数，其实等价于下面的5个步骤：

runCheck(data_i) 
data_g <- runDEG(obj = data_i, parallel = F) 
data_h <- runHyper(obj = data_g) 
data_gse <- runGSEA(obj = data_h) 
data_gsva <- runMSigDB(data_gse)

目前，这个打通转录组测序数据分析的最后一公里包还在持续完善中，比如添加多个物种，添加多种数据库来源的基因集的注释，直接输出html的报表等等。

不过，哪怕是这些特性目前都没有，这个runALL函数已经是没有问题啦，只需要大家给一个表达量矩阵和匹配好的分组信息，就可以一次性出几十个pdf图，和几十个csv表格，和几十个txt文件的基因列表。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-03-05，如有侵权请联系 cloudcommunity@tencent.com 删除

https