首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >是否高表达还不是你说了算

是否高表达还不是你说了算

作者头像
生信技能树
发布2024-11-21 09:55:19
发布2024-11-21 09:55:19
3610
举报
文章被收录于专栏:生信技能树生信技能树

昨天在:公共数据集已经成为了生命科学研究的高速公路提到了一个肝癌的表达量芯片数据集,GSE14520,被关联到了十几篇文章。也就是说现在的小伙伴们如果想做肝癌的癌基因或者抑癌基因的表达量失调,或多或少都可以翻一下过往的公共数据集来加强自己的结论。

但是很多时候,转录组测序数据和表达量芯片技术的结果会出现冲突,比如在:公共数据集已经成为了生命科学研究的高速公路提到了Elafin如果是转录组测序可以看到恶性肿瘤样品的表达量升高,但是表达量芯片的(GSE14520,GSE25097,GSE63898)都看不到差异。这也就是为什么作者仍然是耗费大量的科研经费去收集好的病人样品去做IHC看Elafin的表达量 ,结果证明了Elafin是典型的癌基因,在肿瘤里面恶性高表达而且关联到了坏的预后。

当然了,数据分析结果的冲突性不仅仅是体现在技术手段的差异,同样是表达量转录组测序和芯片就会有冲突,在前面的笔记里面:有一些错误在图片上面显示不出来,我们提到的文章里面的韦恩图就是冲突的最佳体现!还体现在多组学层面的差异,比如转录水平的变化不一定有蛋白质水平的差异,也不一定有甲基化层面的差异。这样的话, 差异与否或者说差异是否达到统计学显著性,其实往往是研究者很主观的评价,而不是客观的描述:

比如我们还是看看这个肝癌的表达量芯片数据集,GSE14520,被关联到了十几篇文章的一个:Alternative splicing of the cell fate determinant Numb in hepatocellular carcinoma. Hepatology 2015 Oct;62(4):1122-31. PMID: 26058814

这个研究最终是为了说明 Numb expression in HCC patients. 就使用了公共数据集 GSE14520:得到的结论是:Total Numb mRNA levels are higher in HCC tumors (T) than in non-tumor liver tissues (NT). 如下所示:

肝癌的Total Numb mRNA levels 升高

但是如果我们去这些数据集的差异分析结果里面去检索我们的目标基因"NUMB",就会发现它就算是有差异,也很难达到统计学显著 :

代码语言:javascript
复制
  grep NUMB  ../*/*/DEG.csv|cut -d"," -f 1-3,5
../2010-GSE14520-肝癌-大队列/GSE14520-gset1/DEG.csv:"NUMB",-0.10020808080808,6.08089662921348,0.0362862776634381
../2012-GSE25097-肝癌-大队列-芯片技术缺陷/GSE25097/DEG.csv:"NUMBL",-0.00290374473204854,0.110165935174553,0.170061559120094
../2012-GSE25097-肝癌-大队列-芯片技术缺陷/GSE25097/DEG.csv:"NUMB",-0.0280264297950332,1.73117908779432,0.386698125686665
../2015-GSE63898-肝癌-大队列-芯片技术缺陷/GSE63898/DEG.csv:"NUMB",-0.102985118929542,8.38000465262664,0.0181690032298584
../2015-GSE63898-肝癌-大队列-芯片技术缺陷/GSE63898/DEG.csv:"NUMBL",-0.104274634152313,5.12329211000951,0.116819835201554

> DEG_DESeq2['NUMB',]
     baseMean log2FoldChange       pvalue
NUMB 2163.918     -0.3507979      4.440375e-07

上面的这些表达量芯片的(GSE14520,GSE25097,GSE63898),以及tcga数据库的肝癌转录组数据集,都是样品数量比较大的,几百个癌症样品,所以很容易达到统计学显著性。如果不卡变化倍数这个指标,那么未免也太宽松了。

同一个基因有被设计多个探针

比如上面的公共数据集 GSE14520就有一个表达量芯片平台上GPL3921,很容易搜索到确实是有两个探针的:

代码语言:javascript
复制
b=data.table::fread('../GPL3921-25447.txt.gz',
                    data.table = F,header = T)
colnames(b) 
ids=b[,c('ID','Gene Symbol')] 
head(ids)
# 207545_s_at 
# 209073_s_at 

但是实际上我们根本就没办法复现出来文章那样的统计学显著性:

代码语言:javascript
复制
  load('GSE14520_eSet.Rdata')
  a=gset[[1]] 
  dat=exprs(a) #a现在是一个对象,取a这个对象通过看说明书知道要用exprs这个函数
  dim(dat)#看一下dat这个矩阵的维度
  dat[1:4,1:4] #查看dat这个矩阵的1至4行和1至4列,逗号前为行,逗号后为列
  
  boxplot(dat['207545_s_at',] ~ group_list)
  boxplot(dat['209073_s_at',] ~ group_list)

表达量差异分析需要看变化倍数和p值这两个指标结合起来

在基因表达量差异分析中,变化倍数(Fold Change, FC)和P值是两个常用的度量指标,它们分别提供了不同方面的信息,结合起来使用可以更全面地评估基因表达的差异是否具有统计学意义和生物学意义。

  1. 变化倍数(Fold Change, FC)
    • 变化倍数表示基因在两个不同条件下表达水平的相对变化。例如,FC > 2 表示基因在某一条件下的表达量是另一条件的两倍或更多。
    • FC 反映了基因表达变化的幅度,是一个直观的度量,可以帮助研究者快速识别表达变化显著的基因。
  2. P值
    • P值是统计学中用于衡量观察到的数据与零假设(通常是没有差异或没有效应)之间差异的显著性的概率度量。
    • P值越小,表示观察到的数据与零假设之间的差异越不可能是偶然发生的,即基因表达的差异越可能是真实的。

为什么需要结合使用FC和P值

  1. 统计学意义
    • P值提供了统计学意义的度量,帮助研究者判断基因表达差异是否显著。
  2. 生物学意义
    • 仅凭P值无法完全判断基因表达变化的生物学重要性,而变化倍数提供了这种生物学重要性的直观度量。
  3. 避免假阳性
    • 高P值可能意味着基因表达差异不显著,但低P值也可能由样本量较大导致,即使变化幅度很小。结合FC可以避免将这些小变化误认为是生物学上重要的。
  4. 避免假阴性
    • 仅凭FC可能会错过那些变化幅度不大但统计学上显著的基因,特别是在样本量较小的情况下。
  5. 数据分布和质量
    • 结合FC和P值可以帮助研究者更好地理解数据的分布和质量,以及可能存在的技术或生物学变异。
  6. 后续研究
    • 选择具有显著P值和较大FC的基因可以为后续的实验设计和生物学验证提供更可靠的候选基因。

因此,结合使用FC和P值可以提高差异表达分析的准确性和可靠性,帮助研究者更全面地理解基因表达的变化。

如果一个基因仅仅是符合p值阈值,变化倍数阈值达不到,就不重要了吗

一个基因如果仅符合P值阈值但变化倍数(Fold Change, FC)未达到设定的阈值,并不一定意味着它不重要。在评估基因表达差异的重要性时,需要考虑多个因素:

  1. 生物学背景
    • 某些生物学过程或信号通路中的关键基因可能不会表现出大的变化倍数,但即使是微小的表达变化也可能具有重要的生物学意义。
  2. 基因的功能
    • 对于某些基因,即使是微小的表达变化也可能对其功能产生显著影响,尤其是在调控网络中的关键基因。
  3. 实验设计和条件
    • 实验条件和设计可能会影响基因表达变化的幅度。在某些情况下,即使是小的变化也可能表明基因在不同条件下的行为差异。
  4. 数据质量
    • 数据质量、样本量和生物学重复的多少也会影响变化倍数。在数据质量较低或样本量较小的情况下,可能难以检测到大的变化倍数。
  5. 统计功效
    • P值考虑了统计功效,即检测到真实差异的能力。如果实验的统计功效足够高,即使变化倍数不大,P值也可能反映出真实的生物学差异。
  6. 后续验证
    • 对于那些P值显著但变化倍数不大的基因,可以通过后续的实验验证(如qPCR、Western blot等)来进一步评估其生物学重要性。
  7. 基因表达的动态范围
    • 对于表达水平本身就很低或很高的基因,变化倍数可能不是衡量差异的最佳指标。
  8. 基因在疾病中的作用
    • 在某些疾病状态下,基因表达的微小变化可能与病理过程密切相关。

因此,即使一个基因的变化倍数未达到阈值,它仍然可能在生物学上具有重要意义。在决定基因的重要性时,应该综合考虑P值、变化倍数以及其他生物学和实验因素。

但是样品数量比较多的时候p值很容易统计学显著

样品数量较多时,确实更容易获得统计学显著的P值,这主要归因于以下几个原因:

  1. 统计功效(Statistical Power)
    • 统计功效是指在实际存在效应时检测到该效应的能力。样品数量越多,统计功效通常越高,这意味着更有可能检测到即使是微小的效应,从而得到显著的P值。
  2. 敏感性(Sensitivity)
    • 较大的样本量提高了数据的敏感性,使得即使是微小的差异也能被检测出来。
  3. 减少随机误差(Random Error)
    • 增加样品数量可以减少随机误差的影响,因为大样本量有助于稳定估计总体参数。
  4. 提高置信区间(Confidence Intervals)的精确度
    • 大样本量可以缩小置信区间的宽度,使得差异更加显著。
  5. 降低假阴性率(Type II Error)
    • 随着样本量的增加,错过真实差异(假阴性)的风险降低。

然而,也需要考虑以下几点:

  1. 假阳性率(Type I Error)
    • 虽然大样本量降低了假阴性率,但如果不适当调整多重比较的校正,可能会增加假阳性率。
  2. 效应大小(Effect Size)
    • 即使P值显著,效应大小也可能很小,这在生物学或临床上可能并不具有重要意义。
  3. 数据质量
    • 样本量多并不意味着数据质量一定高。数据的准确性和可靠性对于得出有意义的结论至关重要。
  4. 资源和成本
    • 增加样本量通常伴随着更高的实验成本和资源消耗。

因此,在样品数量较多的情况下,虽然更容易获得统计学显著的P值,但研究者需要综合考虑效应大小、数据质量、实验设计和生物学意义等因素,以确保结果的科学价值。同时,适当的统计方法和多重比较校正是必不可少的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 同一个基因有被设计多个探针
  • 表达量差异分析需要看变化倍数和p值这两个指标结合起来
  • 但是样品数量比较多的时候p值很容易统计学显著
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档