前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GEO数据挖掘—1

GEO数据挖掘—1

原创
作者头像
大胖橘
发布2023-03-16 22:48:23
5760
发布2023-03-16 22:48:23
举报
文章被收录于专栏:R语言 / LinuxR语言 / Linux

GEO数据挖掘—1

一、图表介绍

(一)热图

输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小

(二)散点图

箱线图(单个基因在两组之间的表达量差异)

单个基因的组间比较用箱线图,多个基因用差异分析。

(三)火山图

火山图的解读

logFC是火山图的横坐标,范围基本是个位数的变化。2的几次方。

纵坐标是基因的-log10(pvalue)

Foldchange(FC):处理组平均值/对照组平均值

logFC: FC取 log2

logFC > 0,treat>control,基因表达量上升(而不是上调,上下调要结合p值来定义)

logFC < 0,treat<control,基因表达量下降(而不是下调)

pvalue越小,越有信心认为差异显著,-log10(Pvalue)越大。

(四)主成分分析(PCA图)

主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

图上的点代表样本(中心点除外),点与点之间的距离代表样本与样本之间的差异。点与点之间的距离越大,代表样本与样本之间的差别越大。

实践中的应用

二、GEO背景知识和表达芯片分析思路

(一)表达数据实验设计

实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象

有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围

(二)数据库介绍

样本:用户提交给GEO的样本数据(GSM)

系列:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。(GSE)

平台:用户测定表达量使用的芯片/平台(GPL)

分析思路

(1)找数据,找到GSE编号

(2)下载数据(用R语言的代码可以下载,从中找到两个信息,一个是表达矩阵,一个是临床信息(分组信息))

(3)数据探索(分组之间是否有差异,PCA、热图)

(4)差异分析及可视化(p值,logFC,火山图、热图)

(5)富集分析KEGG、GO

(三)表达矩阵

行名是探针id(约等于基因,探针id需要转换为gene symbol),列名是样本编号(以GSM开头,需要分组信息)。

(四)富集分析

输入数据:差异基因的entrezid

基因的命名方式有很多,常说的基因名:SYMBOL,ENTREZID:是富集分析指定使用的id。这两个命名方式不是一一对应的。

富集分析使用的数据框——KEGG数据库/GO数据库

理解GeneRatio / BgRatio

富集分析是衡量每个通路中的基因在差异基因里是否足够多。

富集分析的可视化:气泡图,柱状图

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GEO数据挖掘—1
    • 一、图表介绍
      • 二、GEO背景知识和表达芯片分析思路
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档