前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >差异和富集是第一步而已!

差异和富集是第一步而已!

作者头像
生信技能树
发布2024-11-21 09:40:47
发布2024-11-21 09:40:47
7200
代码可运行
举报
文章被收录于专栏:生信技能树
运行总次数:0
代码可运行

我们的马拉松授课第二单元是GEO数据库里面的表达量芯片数据处理,已经是非常稳定的流程了,可以应付绝大部分公司的绝大部分技术平台。

因为代码流程固定下来了,导致很多小伙伴在做练习题的时候,仅仅是机械式的修改里面的GSE的ID号码而已,并没有做更多的思考。任意数据集只需要有分组,都可以很简单的差异分析,有差异结果里面的上下调基因就可以富集分析。但是,差异和富集是第一步而已!

比如这个2015的文献就被学员挑选到了:《The inflammatory cytokine TWEAK decreases PGC-1α expression and mitochondrial function in acute kidney injury》,它对应的数据集是:GSE273064,但是学员自己很难自己的独立判断自己的分析是否合理:

差异分析

我通常会让已经完成了差异分析和富集分析的学员们仔细地读一下文献,起码多复现一个图,比如下面的指定的通路以及通路对应的基因的差异情况:

通路对应的基因的差异情况

就需要根据我们的马拉松授课的表达量芯片的标准代码进行细致的探索和出图:

代码语言:javascript
代码运行次数:0
复制
load( file = 'step1_output.Rdata')
cg='Ppargc1b Ndufs1 Ndufb5 Sdha Esrra Ppara Cox5b Tfam Atp5o'
cg=trimws(strsplit(cg,' ')[[1]]);cg
cg=cg[cg %in% rownames(dat)]
cg
tmp=deg[cg,]
pheatmap(dat[cg,])

n=t(scale(t(dat[cg,]))) # 'scale'可以对log-ratio数值进行归一化
n[n>2]=2 
n[n< -2]= -2
head(n)
pheatmap(n,show_colnames =F,show_rownames = F)
ac=data.frame(Group=group_list)
rownames(ac)=colnames(n)
pheatmap(n,show_colnames =F,show_rownames = T,
         annotation_col=ac)

bp=function(g){         #定义一个函数g,函数为{}里的内容
  library(ggpubr)
  df=data.frame(expression = g,group = group_list)
  p <- ggboxplot(df, x = "group", y = "expression",
                 color = "group", palette = "jco",
                 add = "jitter")
  #  Add p-value
  p + stat_compare_means() + ggtitle(target_gene)+
    theme_bw()
}
target_gene='Ndufs1'
p1 <-  bp(dat[target_gene,])
p1

更多评估数据分析合理性的方法:

  1. 数据质量控制
    • 确保数据质量良好,包括检查原始数据的质量控制指标,如测序深度、样本间的相关性、批次效应等。
  2. 统计显著性
    • 检查差异表达分析中使用的统计测试是否适当,并且是否对结果进行了多重比较校正(如Bonferroni、FDR等)。
  3. 生物学重复
    • 确保分析中包含了足够的生物学重复,以提高结果的可靠性和可重复性。
  4. 效应大小
    • 除了统计显著性,还应考虑效应大小(如折叠变化),以评估基因表达变化的实际生物学意义。
  5. 富集分析的合理性
    • 检查富集分析中使用的数据库和工具是否适合您的研究目的和物种。
    • 确认富集分析的P值是否经过了适当的校正,以避免假阳性。
  6. 结果的生物学解释
    • 分析结果是否与已知的生物学知识一致,或者是否提出了新的、可验证的假设。
  7. 数据可视化
    • 通过图表(如火山图、热图、富集条形图等)来直观展示分析结果,检查数据的分布和模式。
  8. 独立验证
    • 如果可能,使用独立数据集或实验来验证关键发现。
  9. 文献对比
    • 将结果与已发表的文献进行对比,检查是否与现有知识相吻合。
  10. 专家意见
    • 咨询领域内的专家或同行评审,获取他们对分析方法和结果的看法。
  11. 软件和参数
    • 确保使用的软件和参数设置是适当的,并且与分析目的相匹配。
  12. 透明度和可重复性
    • 记录分析过程中的所有步骤和参数,以便其他人可以复现您的分析。

通过上述步骤,您可以更全面地评估您的分析是否合理,并确保您的研究结果具有较高的可靠性和科学价值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 更多评估数据分析合理性的方法:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档