前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >加权基因共表达网络,其实并没有那么神秘

加权基因共表达网络,其实并没有那么神秘

作者头像
生信修炼手册
发布2020-05-08 16:50:23
7710
发布2020-05-08 16:50:23
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

WGCNA是目前非常火热的一项研究内容,其全称为weighted correlation network analysis, 直译就是加权基因相关性网络分析。通过这项分析,可以鉴定共表达的基因集合,这样的集合称之为modules, 而且可以将modules与表型数据进行关联分析,挖掘潜在的mark 基因。

这个高大上的分析内容的第一步就是构建基因之间的共表达网络,共表达是常用的分析相关性的一种策略,直接通过线性相关函数来计算相关性,比如pearson, spearman等相关系数,每两个基因之间可以计算出一个相关系数,那么如何构建出相关性网络呢?

在基因的相关性网络中,每个节点代表一个基因,节点之间的连线用来表示两个基因的相关性。在传统的相关性分析中,通常会给定一个阈值,比如相关系数的绝对值必须大于0.9,才认为这两个基因间存在相关性。对应的公式如下

S表示两个基因间的相关系数的绝对值,公式如下

注意是绝对值,因为协同变化的基因可以是正相关,也可以是负相关。给定一个阈值,如果两个基因之间的相关系数大于该阈值,则认为这两个基因存在相关性,在网络图中就用一条线将这两个基因连接起来;如果小于该阈值,则不存在相关性。

通过阈值筛选,将两个基因间的相关系数转换为0和1,0代表没有相关性,1代表有相关性,所有基因之间的关系可以用以下矩阵来表示

代码语言:javascript
复制
 geneA geneB geneC
geneA 0 1 1
geneB 1 0 1
geneC 1 0 0

这样的矩阵称之为邻接矩阵,通过这个矩阵可以直观的表示一个网络,数值为1的点对应的两个基因在网络图中有连线。

用上述方法构建出的网络,称之为非加权的共表达网络,对于两个基因而言,其相关性是有强弱的,是一个在0到1 分为内波动的值,采用上述一刀切的方法,缺失了原本的变化趋势,所以非加权的共表达网络丢失了很多信息。

WGCNA的开发团队提出了加权基因共表达网络的概念,怎么加权呢,公式如下

在计算邻接矩阵中两个基因的值时,将原本的相关系数的绝对值做一个乘方运算。乘方运算强化了相关系数的变化层次,比如原本系数相差,乘方运算后其差距会被拉大,这样使得数据可以区分的更开,有利于后续聚类识别modules, 同时乘方运算也保证了相关性关系的不变性,公式如下

取log之后,二者是一个线性关系,采用乘方运算来计算基因间的邻接矩阵,用该矩阵构建共表达网络时,两个基因之间的连线不在是有无的关系,而有对应的数字的加权了,这个就是加权基因共表达网络。

在构建加权基因共表达网络时有几点注意事项,最关键的一点是样本数目,当样本太少时,简单线性相关系数并不能有效识别基因间的相关性,会出现很多基因间的相关系数完全一致的情况,这样的数据就很难进一步挖掘,官方推荐至少20个样本,另外就是基因表达谱的数据的预处理,在计算相关性时,表达量数值很低的基因容易造成干扰,会发现它与非常多的基因都存在相关性,所以可以指定一个阈值,将表达量很低的基因去除。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档