花二十万做的大队列转录组告诉你不能这样设计课题啊！

生信技能树

发布于 2024-11-21 09:16:45

9600

代码可运行

文章被收录于专栏：生信技能树生信技能树

运行总次数：0

代码可运行

学员在掌握了我们的授课的GEO数据挖掘之后通常是会试试看自己感兴趣的科研领域的表达量芯片或者转录组测序公开数据集，然后就各自碰壁，因为绝大部分文献在公开自己的数据的时候往往是会埋一些不大不小的坑。

比如学员就反馈了2020的一个美国纽约的哥伦比亚大学的阿兹海默症研究文章：《T Cell Responses to Neural Autoantigens Are Similar in Alzheimer’s Disease Patients and Age-Matched Healthy Control》，对应的数据集是GSE153104，可以看到研究者关注的应该是Alzheimer’s disease (AD),和healthy controls (HC).的转录水平的变化，而且还具体到了不同的细胞亚群：

PBMCs (HC n=28 and AD n=27),
CD4 memory (HC n=28 and AD n=27)
CD8 memory (HC n=30 and AD n=26) T cells

这是一个大队列的转录组了，166个转录组测序在2019之前在美帝那边起码耗费二十万人民币经费。但是呢，我们很容易读取作者给出来的表达量矩阵文件进行简单的质量控制，如下所示：

质量控制

我在生信技能树的教程：《你确定你的差异基因找对了吗？》提到过，必须要对你的转录水平的全局表达矩阵做好质量控制，最好是看到标准3张图：

左边的热图，说明我们实验的两个分组，normal和npc的很多基因表达量是有明显差异的
中间的PCA图，说明我们的normal和npc两个分组非常明显的差异
右边的层次聚类也是如此，说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来，实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图，仔细探索哪些样本是离群点，自行查询中间过程可能的问题所在，或者检查是否有其它混杂因素，都是会影响我们的差异分析结果的生物学解释。

             CD4 CD4m CD8 CD8m PBMC
  Alzheimer's disease  18    9  17    9   27
  Healthy control      19    9  20   10   28

上面的PCA图就可以看到，其实作者给出来的表达量矩阵主要的差异完全是取样材料的差异，压根就很难定位到究者关注的应该是Alzheimer’s disease (AD),和healthy controls (HC).的转录水平的变化。研究者们也做了3次差异分析，如下所示的火山图：

火山图

可以看到确实是符合统计学显著的上下调差异基因数量非常少，都不需要我们来复现这个。

而且不仅仅是这些不同细胞亚群在Alzheimer’s disease (AD),和healthy controls (HC).的两个分组是没有全局的转录水平的变化，而且如果是取这两个分组样品进行流式细胞，也基本上是阴性结果：

基本上是阴性结果

流式细胞仪甚至是更贵一点，但是因为无论是阿兹海默症患者，还是正常志愿者，都是直接抽血然后去做实验。

Whole blood was collected in EDTA vacutainers and PBMCs were isolated by density gradient centrifugation with Ficoll-Paque plus

这样其实就天然不太可能有差异，前面我在生信技能树推文：你确定你的差异基因找对了吗？ 提出了文章的转录组数据的60个样品并没有按照毒品上瘾与否这个表型来区分，而是不同人之间的异质性非常高，这个时候我提出来了一个解决方案，就是理论上就可以把人当做是一个批次效应，使用sva包的combat函数，把这样的效应去除一下，接着再找差异。

类似的， control组以及毒品组，基本上是无法区分开来的，然后呢，这个文章Alzheimer’s disease (AD),和healthy controls (HC).的两个分组是没有全局的转录水平的变化。

什么是合理的实验设计看疾病和正常对照的差异

在转录组研究中，疾病状态和正常对照之间的比较确实是一种常见的实验设计。当疾病主要影响特定组织或器官时（如癌症），通常首选的是直接从患病组织（例如肿瘤组织）中提取样本进行分析，因为这样可以更直接地观察到与疾病相关的分子变化。然而，如果研究设计仅限于从患者和健康对照者抽取血液样本，那么在血液中观察到的转录组差异可能不如直接从病变组织中获得的样本那么显著或特异。血液样本中的基因表达差异可能反映了：