前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >表达量矩阵差异分析决定上下调基因的阈值

表达量矩阵差异分析决定上下调基因的阈值

作者头像
生信技能树
发布2022-06-27 20:41:14
1K0
发布2022-06-27 20:41:14
举报
文章被收录于专栏:生信技能树

接近十年前,我作为药企小部门的小喽啰,那个时候辅助化学和生物研发团队做非酒精性脂肪肝的药物研发,但是关于这个非酒精性脂肪肝疾病的基本上就十几个相关表达量芯片研究公布在GEO数据库里面。

我们需要批量下载它们并且进行最简单的表达量矩阵差异分析,并且给出来统计学显著的上下调基因。现在看来当然是非常简单了,公众号推文在:

但是那个时候的我第一次接触表达量矩阵芯片,不同芯片产商的不同探针,不同数量值范围, 还有差异分析后决定上下调基因的阈值都让我头疼无比。

尤其是logFC的阈值问题,不同文章完全不一样,有使用1,1.2,1.5,甚至2的。最开始跟部门小伙伴讨论希望定下来阈值,但是发现同一个阈值没办法适用于不同数据集,导致汇报给领导的时候有一些数据集就十几个上下调基因,有一些确实好几千个,非常的尴尬。

现在想起来,当然知道为什么了,因为表达量矩阵形式不一样,而且不同数据集里面的两个分组的组间差异和组内差异很不一样。我在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图

  • 左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的
  • 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异
  • 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。比如超级多的统计学显著的上下调基因或者说超级少的基因。

神奇的 |logFC| > [mean(|logFC|) + 2sd(|logFC|)]

因为做了太多次差异分析, 发现了固定阈值确定统计学上下调差异表达基因的弊端,所以在某个时间段(大约是七八年前),因为客户要求差异基因数量的200个到500个,如果人类基因数量是2万,那就是 1%到2.5%,我提出来了自定义动态阈值的理念,就是 |logFC| > [mean(|logFC|) + 2sd(|logFC|)]

它依托于一个很常见的统计学理念,就是正态分布,也叫做钟形曲线,有一个概念是置信区间。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,如下所示:

钟形曲线

实际的求解步骤也非常简单:

  • 第一步:求一个样本的均值。
  • 第二步:计算出抽样误差。
  • 第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。

也就是说,0.05这样的阈值其实在钟形曲线上面就换算成了 1.96个标准差(sd值),但是我当时为了方便就直接写成了2个sd,所以就沿用至今。

所以大家如果最近看到我们的火山图,会发现里面有各种稀奇古怪的阈值:

稀奇古怪的阈值

它们仅仅是因为 |logFC| > [mean(|logFC|) + 2sd(|logFC|)] 公式而因地制宜的计算出来的,我无意中搜索这个公式确实发现了一个文献:《Identification of key genes unique to the luminal a and basal-like breast cancer subtypes via bioinformatic analysis》,链接是:https://wjso.biomedcentral.com/articles/10.1186/s12957-020-02042-z,它既然可以这样用,而且发表,你怕什么呢?

学徒作业

熟读文献:《Identification of transcriptomic signatures and crucial pathways involved in non-alcoholic steatohepatitis》,定位到里面的gse数据集,并且每个数据集独立的差异分析,看看各自的变化倍数的范围,是不是动态变化很大, 如果是统一上下调阈值比如1,1.2,1.5,甚至2,多个数据集看看是否有交集。如果不统一阈值,而是各自数据集内部的 |logFC| > [mean(|logFC|) + 2sd(|logFC|)] 作为阈值,也就是说正态分布的95%之外的那些基因,再次看看是否交集会更多。

尤其是跟文献里面的Robust rank aggregation (RRA)算法得到的多个数据集的上下调基因,对比一下。

Robust rank aggregation (RRA)算法得到的上下调基因

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 神奇的 |logFC| > [mean(|logFC|) + 2sd(|logFC|)]
  • 学徒作业
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档