前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GEO数据库学习

GEO数据库学习

原创
作者头像
用户11211038
发布2024-07-23 15:55:50
1210
发布2024-07-23 15:55:50
举报
文章被收录于专栏:R语言学习
  • 数据库介绍
    • platform-----sample------series
      • sample:用户提交给GEO的样本数据 GSM开头
      • series:一个完整的研究,提供了整个研究的描述,包括对数据的描述,总结分析 (GSE开头)
      • platform:用户测定表达量使用的芯片/平台(GPL)开头;不同开头的表达芯片,资料不同
        • 问题:
          • 想从文章找到作者用的数据集编号,开头为GSE
          • 芯片产品:GPL
          • 样本的编号 GSM
    • 基因表达芯片的原理:探针的表达量代表基因的表达量
    • 分析思路
      • 找数据,找到GSE编号
      • 下载数据:(表达矩阵)和临床信息(分组信息)
      • 数据探索:分组自建是否有差异:PCA图和热图
      • 差异分析以及可视化:1.P值,logFC 2.火山图和热图
      • 富集分析:KEGG和GO
    • 表达矩阵:
      • 探针:转换为gene symbol
      • 样本编号:需要分组信息
    • 富集分析
      • 输入数据:差异基因的entrezid
      • symbol:常说的基因名
      • entrezid:富集分析指定用的
      • 两者并非一一对应的,一对二,三等
    • 富集分析
      • KEGG:pathway hsa03030
      • GO数据库:细胞组分 分子功能 生物功能
      • Y叔和clusterProfiler:写出了富集分析的R包
      • 富集分析的结果:
        • 十列的表格:ID;通路编号 pvalue:衡量是否显著,GENEID:哪些属于这条通路,后米娜及逆行计数
        • 成果更新的时候BgRatio会发生改变:该通路有多少个基因/数据库中所有通路有多少个基因
        • Generatio:差异基因多少个属于该通路/差异基因中有多少个被数据库收录(差异基因通过差异分析获得)
      • 富集分析的理解:
        • kegg数据库里的基因,相同颜色代表同一种通路;该通路一共有8个,基因库一共有86个基因,8/86是BgRatio
        • 差异基因一共
        • 衡量每个通路里面的基因在差异基因里是否足够多;多就是富集
          • 举例:BgRatio 35/13000,Generatio 25/1000:总中奖率是第一个值;你做出来的值是第二个值;第二个值明显高,为富集
          • 把差异基因和通路联系起来
      • 富集分析的可视化:第一张横坐标为GeneRatio;第二张横坐标为count;还可以分面;还可以一张图展现上调基因和下调基因;
      • 不想解释的东西,尽量不要展示:调整p值/拆开图
      • 展示通路之间的共同基因:基因不一定属于同一个通路:可能有 比较重要的功能
      • 展示GOterm之间的关系

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档