前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GEO数据挖掘

GEO数据挖掘

原创
作者头像
浅念
发布2023-03-27 20:04:05
9880
发布2023-03-27 20:04:05
举报
文章被收录于专栏:syj生信syj生信

图标介绍

GEO有火山图、箱线图、热图、PCA、散点图

热图

输入数据是数值型矩阵/数据框

颜色的变化代表数值的大小

散点图和箱线图

输入数据是一个连续型向量和一个有重复值的离散型向量

箱线图的上下5条线代表散点图的分布。

箱线图:单个基因在组之间的表达量差异,必须知道每个组是对照组还是实验组。R语言中同一个分组对应一个关键词,比如对照组不能写成对照1,对照2,这样就不能把对照归为一类。

对于有差别的基因用logFC和p-value来看区别

FC:处理组平均值/对照组平均值

表达芯片的差异分析我们得到的矩阵已经是log后的矩阵,所以logFC=处理组的数据平均值-对照组数据的平均值

Notice: logFC>1500说明处理组比对照组上调了无穷大的倍数,这说明处理数据时可能没有取log。

火山图

通常所说的上调、下调基因是指表达量显著上升、下降的基因。(显著和p-value相关)

我们所说的上调或显著性是根据我们自己设置的阈值来判断

横坐标:logFC的常见阈值有1,2,1.2,1.5,0.585=log2(1.5)

纵坐标:-log 10(P.Value) 越往上p.value越小,显著性越显著。p-value的阈值一般为0.01和0.05

主成分分析PCA

旨在利用降维的思想,把多指标转为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上的距离越远,说明样本差异越大。

在生物分析中,多指标指的是多个基因,综合指标并没有明确意义。

每个点代表每个样本,点与点之间的距离代表两个样本之间的差异性。

横纵坐标是主成分1和主成分2,括号里的数之和解释数据变化的百分之多少,两者之和能解释60%就已经很好了,但我们一般不看这些数。

我们可以看到中间有一个点很大,这个不是样本,而是中心点。

适用情况

左上我们可以看到蓝色组内没有聚成一簇,可以继续分析蓝色组内是否存在差异基因

左下每个组只有3个样本,没办法画圈圈。

右边发现组间差别小,那就没必要再做正式实验了。分析完PCA就可以去做热图了

GEO背景知识+表达芯片的分析思路

表达数据实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象。

notice:差异分析是两组之间的比较,看logFC

思路:有差异的材料-差异基因-找功能/关联-解释差异,缩小基因氛围

数据库介绍

NCBI上的gene expression omnibus(GEO),里面有网页工具“GEO2R”。优点是不用学编程语言,简单;缺点是需要一个一个点,不能批量操作。

提交给GEO的有样本数据(GSM)、一个完整的研究并提供整个研究的描述,包括对数据的描述,总结分析(GES)、用户测定表达量使用的芯片/平台(GPL)。

基因表达芯片的原理

探针的表达量来代表基因的表达量。

探针是与基因互补杂交的序列。现在的核苷酸探针有25、60甚至更长。

分析思路:

找数据,找到GSE编号-下载数据(表达矩阵、分组信息和GPL编号)-数据探索(分组之间是否有差异、PCA、热图)-差异分析及可视化(P值、LogFC,火山图、热图)-富集分析KEGG、GO

不同文章可以分析同一组数据,但方法不一样

表达矩阵

一行是一个探针id,一列是一个样本编号(GSM)

探针id最后转换成基因名称

样本编号要归结到分组信息

富集分析

输入数据是差异基因的entrezid id(id可以用symbol基因名来表示,也可以用entrezid(富集分析指定用)来表示)

KEGG数据库

把基因及表达信息作为一个整体的网络。研究基因在哪些通路上。

GO数据库

细胞组分

分子功能

生物过程

R包上进行基因差异及富集分析的包:cluster profile

富集分析结果

第一列是通路,gene id是在该通路上的基因id,count 代表在该通路上基因的数目。

generatio: A/B A:差异基因中有多少属于这条通路;B:差异基因中有多少个被数据库收录

bgratio:A/B A:该通路总共有多少个基因;B:数据库总共收录了多少个基因。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 图标介绍
    • 热图
      • 散点图和箱线图
        • FC:处理组平均值/对照组平均值
      • 火山图
        • 横坐标:logFC的常见阈值有1,2,1.2,1.5,0.585=log2(1.5)
        • 纵坐标:-log 10(P.Value) 越往上p.value越小,显著性越显著。p-value的阈值一般为0.01和0.05
      • 主成分分析PCA
        • 适用情况
    • GEO背景知识+表达芯片的分析思路
      • 表达数据实验设计
        • 数据库介绍
          • 基因表达芯片的原理
            • 分析思路:
          • 表达矩阵
            • 富集分析
              • KEGG数据库
              • GO数据库
              • R包上进行基因差异及富集分析的包:cluster profile
              • 富集分析结果
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档