扔你一个数据库,给你一批RNA分析工具!

分析单细胞RNA(scRNA)者,必收藏之!

自从2009年第一篇单细胞RNA(single cell RNA-sequencing, scRNA)的文章发表以后,随着测序成本的降低、技术的成熟,越来越多的科研工作者开始将单细胞RNA测序引入到自己的科研工作中,希望发表CNS级别的文章,走上人生巅峰!

然而,一个现实的问题是,目前开发了大量的针对单细胞RNA测序的算法工具,特别是2016年以后,新的工具更是层出不穷(图1)。因此,系统的总结这些工具,从而使科研工作者能比较方便的检索、了解和选择这些工具,更加专注于科学问题的解决,就显得十分的重要了。

图1,开发的单细胞RNA数据分析工具数量随时间的变化

今天我们就来为大家介绍一个这样的数据库scRNA-tools(www.scRNA-tools.org ,图2),它非常系统全面的收集了当前scRNA分析的主要工具,并根据工具的主要功能进行了分类,同时,提供了工具相关的文献Doi号,方便大家学习和使用。

图2,scRNA-tools的首页(有Table, Tools, Categories, Analysis ,Updates, Submit和FAQs等选项)

01

数据处理流程

在对scRNA-tools数据库收集的工具进行介绍之前,我们先简单了解一下scRNA数据分析的4个主要流程:

Phase 1:Data acquisition

数据获取,即是从下机的reads到表达矩阵的构建。主要涉及将reads比对到参考基因组,并完成定量;对于采用Unique Molecular Identifiers (UMIs)这种测序模式的,则需要去重以完成表达量的绝对定量。

Phase2:Data Cleaning

数据清洗。主要是去除低质量的细胞和无意义的基因,从而得到可用于下游分析的高质量的数据集。往往还会涉及到数据的归一化和缺失值的填补。

Phase3:Cell Assignment

细胞的分类。主要是采用降维和聚类算法将基因表达模式相似的细胞聚为一类,每一类的细胞可能是已经发现的细胞类型,也可能是未发现的新的细胞类型。也包括根据基因表达特征模拟细胞发育轨迹。

Phase4:Gene Identification

标签基因的鉴定。根据基因分类或者轨迹构建结果发现相关的特异性基因,如差异表达的基因。

从上述流程可以看出,scRNA分析中使用的主要工具有比对、QC、降维、聚类、轨迹分析等,数据库共将之分为32类,下面将具体介绍。

02

scRNA-tools之工具介绍

数据库将每个工具赋予2个身份标签,分别为Phase和Categories。具体信息如表1:

表1:scRNA-tools数据库工具信息描述

可以看出,除了上面列出的4个phase以外,还要一些other项,主要包括下游一些个性化分析,或者有的工具功能较多,如包括多个phase等。

对不同种类的工具的数据进行统计,我们可以发现,比较多种类的为可视化、聚类、排序、降维、归一化、差异分析和质控等,这些分析或是scRNA分析的上游步骤,或是scRNA必须要回答的科学问题,其余种类的工具则比较专业化或个性化,因此开发的工具也相对较少。(见下图)

此外,对于各个工具采用的计算机语言统计发现(下图),R语言占有绝对优势(约60%),其次为Python语言。因此,好好学习R吧,如果可能,也请学Python;毕竟,它们是数据分析领域的绝代双骄!

03

结语

scRNA-tools比较系统全面的收集和总结了当前scRNA领域的信息分析工具,涉及的领域较大,工具数量庞大(共275个)。因此,作为使用者,我们需在大致了解的前提下,专注于使用量多、引用率高的工具,这样才会使文章的分析比较有说服力,也更能获得同行的肯定和认可!

参考文献

1 Zappia, L., Phipson, B. & Oshlack, A. Exploring the single-cell RNA-seq analysis landscape with the scRNA-tools database. PLoS computational biology 14, e1006245, doi:10.1371/journal.pcbi.1006245 (2018).

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024G17HKF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券