专栏首页单细胞天地Network在单细胞转录组数据分析中的应用

Network在单细胞转录组数据分析中的应用

作者 | 周运来

男,

一个长大了才会遇到的帅哥,

稳健,潇洒,大方,靠谱。

一段生信缘,一棵技能树,

一枚大型测序工厂的螺丝钉,

一个随机森林中提灯觅食的津门旅客。

面向单细胞的技术革命,让我们得以进入新的研究层面,但也对传统的分析方法提出了一系列的挑战。单细胞技术正在弥补分子生物学和组织生物学之间的鸿沟,进入高通量时代以来,这项技术所揭示的不是单一元素的信息,而是在单细胞层面揭示某种系统关系:DNA,RNA,ATAC等。我们知道,在系统中,关键要素除了来自元素本身(基因,转录本等生物小分子)之外,还来自元素之间的关系。虽然作为领域起源的社会网络分析可以追溯到20世纪30年代,图论可以上溯几个世纪,但网络科学的迅速崛起与普及只是近几十年的事情。目前,基因调控网络,生物代谢与信号转导网络,蛋白质互作网络作为基本的生物分子网络(Biological molecular network )已经在生物信息分析中得到广泛的应用。

在一般的生物信息分析中,生物分子网络只是作为一个多元关系的可视化工具。随着生物模型的发展,网络已经作为一种数据结构,其可视化和特征化,对网络的拓扑采样、建模与推断以及网络上的静态和动态过程进行建模和预测等已经成为一个新的有力的生物信息挖掘工具。

那么,什么是网络?

网络

上来就是一个直观的fig, 如文章所言:

Single-cell transcriptional networks in SR, ECP, MCP, Gata1-ERT, and Pu.1-ERT compartments were inferred by combined use of OR and Spearman rank correlation. Solid red lines, positive associations; dashed black lines, negative associations. Node size is proportional to the relative connectivity in each network.

当描述系统中元素及其相互连接的概念时,网(network)是一种自然的选择,然而在有的场合下人们却用图(graph)来表示。这里我们不去深究二者的区别,而是用网络图这样的概念糊弄过去。为了保持流畅性,我把Gephi网络图极简教程(https://www.jianshu.com/p/86145943695a)中的概念部分,如下:

  • 图是一种数据结构

图结构:是研究数据元素之间的多对多的关系。在这种结构中,任意两个元素之间可能存在关系。即结点之间的关系可以是任意的,图中任意元素之间都可能相关。

基于图论(Graph theory)的网络科学认为,任何非连续事物之间的关系都可以用网络来表示,通过将互联网内的电脑、社会关系中的个人、生物的基因等不同属性的实体抽象为节点(Node),并用连接(Link)来展示实体之间的关系,通过量化以节点和连接为组件的网络结构指数(Index),从而能够在统一的框架下寻找复杂系统的共性。

网络关系图(network analysis)是一款比较火的分析,最近频繁出现在单细胞研究的各大论文里。其实单纯看网络关系的话,只是一种数据分析的手段,很早就应用在其他领域。到了2006年,Oliver Mason and Mark Verwoerd在文章Graph Theory and Networks in Biology 中将图论的基本概念联系到生物学的概念中,阶段性总结了生物分子网络在生物学中的应用。目前网络分析正在为我们揭示更多的生命科学机理:

在单细胞转录组数据分析中常见的有基因调控网络,生物代谢与信号转导网络,蛋白质互作网络,细胞相互作用网络,此类网络可以采用R中igraph包、Python 中的Networkx构建并实现出图。当然,除此之外,还有一些非命令行的软件,例如cytoscape,gephi,pajek,graphviz(dot),Ucinet等。

一个分析细胞信息的cytoscape插件:CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization

在开启生物分子网络之前我们有必要了解关于网络的基本概念:

  • 图相关的概念和术语
  • 节点与边
  • 无向图和有向图
  • Co-occurrence网络图与 相关性网络图 (两个矩阵的相关性)
  • 权:图中的边或弧上有附加的数量信息,这种可反映边或弧的某种特征的数据成为权。
  • 网:图上的边或弧带权则称为网。可分为有向网和无向网。
  • 度:在无向图中,与顶点v关联的边的条数成为顶点v的度。有向图中,则以顶点v为弧尾的弧的条数成为顶点v的出度,以顶点v为弧头的弧的条数成为顶点v的入度,而顶点v的度=出度+入度。图中各点度数之和是边(或弧)的条数的2倍。
  • 图的度量
  • 节点数(Nodes):节点的个数。
  • 边数(Edges):边或连接的个数。
  • 平均度(Average degree):表示每个节点连接边的平均数,如果络图是无向图,平均度的计算为 2*edges/nodes。
  • 平均路径长度(Average network distance):任意两个节点之间的距离的平均值。反映网络中各个节点间的分离程度。值越小代表网络中节点的连接度越大。
  • 模块化指数(Modularity index):衡量了网络图结构的模块化程度。一般>0.44 就说明该网络图达到了一定的模块化程度 。
  • 聚类系数(Clustering coefficient):和平均路径长度一起,能够展示所谓的小世界效应,从而给出一些节点聚类或抱团的总体迹象。网络的小世界特性指网络节点的平均路径小。
  • 网络直径(Diameter):网络图直径最大测量长度,即任意两点都有 1 个最短距离,这些最短距离之中的最大值即为该网络图直径。

生物分子网络

上面这些都只是网络的描述性指标,我们总体上知道网络是由节点和连线构成的,而

  • 节点有大小、形状,颜色
  • 连线有粗细、长短、方向、颜色等属性

这些属性赋予生物学意义,也就是是构建网络的过程。有了网络我们可以基于网络结构分析其中的节点关系模块、标度连接性等。常见的生物分子网络有:

  • 基因调控网络

20世纪90年代开发的微阵列技术为检测基因表达提供了有力工具,其中最重要的染色质免疫共沉淀技术(ChIP)成为研究基因调控的手段。我们知道基因的表达不是孤立的,而是相互调节的。自那以后,人们为基因转录调控建立了数据库如:TRANSFAC/RegulonDB等,通过基因调控数据我们可以构建基因调控网络,调控网络中的边可以分为正调控和负调控。

Gene regulatory networks of NF- k B, p53, mir21 and mir34ac in the HNSCC metastatic tissues. A, a network of hypopharyngeal cancer. B, a network of oral cancer. Every node represents a common target gene of NF- k B, p53, mir21 or mir34ac, and was annotated to inflammatory and immune responses (green nodes), apoptosis (blue), angiogenesis (yellow), proliferation (red), adhesion (gold), proteolysis (light red) and other processes (light blue). The networks were presented by cytoscape. doi:10.1371/journal.pone.0073656.g004

  • 蛋白质互作网络

在网络图中反映蛋白质相互作用,构建蛋白互作网络。比较有名的数据库要说String(https://string-db.org)线分析蛋白相互作用数据库,我们在STRINGdb分析单细胞亚群蛋白相互作用网络(https://www.jianshu.com/p/55401f5fd4f3)介绍过用单细胞数据构建蛋白互作网络。

  • 代谢网络和信号转导

我们发现围绕中心法则都可以应用network。这得益于我们已经建设好的数据库,如这里的代谢数据库的KEGG,细胞间通讯的CellchatDB等。基于KEGG我们就某个通路构建代谢网络,也可以用测得的数据来重构。基于CellchatDB数据库我们可以构建细胞相互作用网络(配受体背后是信号转导信息):

生物分子网络的特点:

网络分析是一种数学上的分析方法,应用到生物学中,人们发现大部分生物网络呈现出模块化、无标度、局部高连通性以及层次化的性质。

单细胞转录组应用network

在单细胞转录组数据分析中我们知道主要有两条分析路径,可以说均可以利用network来反映信息,其实已在用了:

  • 细胞层面

在细胞聚类的时候我们知道有Louvain 算法,用的就是在PC空间中构建网络结构后最大化模块度来实现细胞的聚类。在文章细胞异质性||Louvain 算法概述(https://www.jianshu.com/p/ea4140dc72a3)我们简要介绍这个算法以及聚类与细胞异质性的联系。

另一个就是上文提到的细胞间相互作用。借助配受体数据库来推断细胞群之间的相互作用,构建细胞通讯网络。这一块我们介绍过cellchat,cellphonedb。

  • 基因层面

基于表达量数据主要是共表达网络,这方面我们知道WGCNA几乎做到了极致,如我们在文章单细胞转录组WGCNA到底应该怎么做?(https://www.jianshu.com/p/d2991fa79a3e)中做了一些探讨,并用单细胞数据跑了WGCNA的一般流程。

借助数据库可以构建的网络就很多了,比如赫赫有名的单细胞高级分析必备良品:SCENIC,在2017和2020两次登上:

SCENIC借助的基因调控信息有:

Auxiliary datasetsTo successfully use this pipeline you also need auxilliary datasets:

  1. Databases ranking the whole genome of your species of interest based on regulatory features (i.e. transcription factors). Ranking databases are typically stored in the feather(https://github.com/wesm/feather) format and can be downloaded from cisTargetDBs(https://resources.aertslab.org/cistarget/).
  2. Motif annotation database providing the missing link between an enriched motif and the transcription factor that binds this motif. This pipeline needs a TSV text file where every line represents a particular annotation.

目前也有单细胞调控网路在线版的分析数据库GRNdb:(http://www.grndb.com/)是一个免费的人类和小鼠数据库,旨在方便搜索和分析转录因子(TFs)和下游靶基因(称为调控子)在各种组织/条件下形成的调控网络。是华东师范大学生命科学学院生物信息学与计算生物学中心构建的,其内部也用到SCENIC。

在我们拿到基因集之后,也可以通过和KEGG或者GO这样的数据来构建基因与相应通路的network。这里我们可以看到,有了表达量数据我们可以从不同数据库中挖掘信息,如单细胞数据挖掘||DOSE:疾病本体论语义相似分析(https://www.jianshu.com/p/4dc5585d2f83)讲基因集与疾病信息联系在一起。基因集富集分析结果用network来展示也是比较常见的:

Gene set enrichment analysis delineates gene ontology (GO) that differentiates between B- and T-ALL with respect to biological processes. Gene set enrichment analysis (GSEA) comparing B-ALL (red) and T-ALL (blue) in ALL dataset, illustrating differentiation of gene ontology (biological processes) between two subgroups (5% FDR, p = 0.05). Cytoscape and enrichment map were used for visualization of the GSEA results; only gene sets from MSigDB C5 (gene ontology) were used. Nodes represent enriched GO gene sets, whose size reflects the total number of genes in that gene set. Edge thickness (green line) represents the number of overlapping genes between gene sets calculated using Jaccard coefficient. Single nodes and 2-node interactions for both B- and T-ALL, a 5 node-interaction for B-ALL, and interaction between a large number of nodes for T-ALL are shown.

高通量的生物学检测技术产生了大量的信息资源,充实了各种生物学数据库。单细胞转录组作为一种表达谱数据,可以应用表达量和基因信息构建基因调控网络、基因共表达网络、代谢网络(pathway)已经细胞间通讯网络。目前在单细胞转录组数据分析中,network不仅作为一种可视化展示多元关系,也作为一种数学模型来指导细胞分群。图是一种数据结构,我们相信数据可以启发新知,network在以后的多元数据分析中也会得到广泛的应用。

本文分享自微信公众号 - 单细胞天地(sc-ngs),作者:周运来

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 单细胞去除聚类的离群点

    跟我们前面回答的问题类似,不过那些问题是针对于monocle包,使用monocle做拟时序分析(单细胞谱系发育) 学员的问题是: 拟时序分析的热图提取基因问...

    生信技能树jimmy
  • seurat3的merge功能和cellranger的aggr整合多个10X单细胞转录组对比

    我们得比较一下,作者的ellranger的aggr整合多个10X单细胞转录组得到的表达矩阵,跟我们使用seurat3的merge功能整合8个10X单细胞转录组样...

    生信技能树jimmy
  • 单细胞转录组数据处理之细胞亚群比例比较

    这就是个性化分析阶段,这个阶段取决于自己的单细胞转录组项目课题设计情况,我们的介绍的各式各样的分析点,并不是通用的。比如如果要比较细胞亚群比例,就必须要有多个样...

    生信技能树jimmy
  • 所爱隔山海,山海难平——浅谈SDN

    *本文含大量主观看法,请以辩证的态度看待,另外本人认知有限,也在不断地学习和接受新知识,保留自省的权利。*

    SDNLAB
  • 5G 与 4G 使用技术方面有什么区别?

    近日,腾讯无线网络与物联网技术负责人李秋香与高校科研教授、产业链、运营商等各行业的嘉宾一起参与了知乎「 科技共振之 5G+ 」活动,除了专业的5G探讨,也聊了不...

    云加社区
  • 独家 | 一文读懂复杂网络(应用、模型和研究历史)

    前言 随着近几年关于复杂网络(Complex network)理论及其应用研究的不断深入,已有大量关于复杂网络的文章发表在Science,ature,RL,NA...

    数据派THU
  • 不想背锅就来看看“网络自动化”

    网络就像wifi,没有故障的时候,就没有人意识到它的存在。当服务出现故障时,所有的人想到的第一句话都是 “网络是不是有问题?”

    SDNLAB
  • 数据狗工作前后的差别,你中枪了吗?

    ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 来源 | 网络

    CDA数据分析师
  • 李国杰:未来网络并不遥远

    第五届中国未来网络发展与创新论坛今天在南京盛大开幕,来自国内外的近百位专家学者齐聚一堂,共同交流未来网络技术。中国工程院院士李国杰发表精彩演讲。 各位来宾上午好...

    SDNLAB
  • 人人都是网络工程师

    今天的主题是人人都是网络工程师,但是很明显在过去的很长一段时间,网络工程是一件很专业的事情。那么,我们先基本罗列一下在传统的IT环境下,一个组织想获得稳定可靠的...

    高航

扫码关注云+社区

领取腾讯云代金券