前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >GEO数据分析流程之芯片1补充

GEO数据分析流程之芯片1补充

作者头像
生信菜鸟团
发布于 2024-06-28 05:11:50
发布于 2024-06-28 05:11:50
1260
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

生新技能树学习笔记

代码分析流程

第一步:安装R包

options("repos"="https://mirrors.ustc.edu.cn/CRAN/")if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")cran_packages <- c('tidyr', 'tibble', 'dplyr', 'stringr', 'ggplot2', 'ggpubr', 'factoextra', 'FactoMineR', 'devtools', 'cowplot', 'patchwork', 'basetheme', 'paletteer', 'AnnoProbe', 'ggthemes', 'VennDiagram', 'tinyarray') Biocductor_packages <- c('GEOquery', 'hgu133plus2.db', 'ggnewscale', "limma", "impute", "GSEABase", "GSVA", "clusterProfiler", "org.Hs.eg.db", "preprocessCore", "enrichplot") for (pkg in cran_packages){ if (! require(pkg,character.only=T) ) { install.packages(pkg,ask = F,update = F) require(pkg,character.only=T) }} for (pkg in Biocductor_packages){ if (! require(pkg,character.only=T) ) { BiocManager::install(pkg,ask = F,update = F) require(pkg,character.only=T) }}

第二步 检查安装是否成功

#前面的所有提示和报错都先不要管。主要看这里for (pkg in c(Biocductor_packages,cran_packages)){ require(pkg,character.only=T) }

第三步 确定数据研究方向、物种、数据类型(一定要是芯片,标注array

样品信息

平台

点开Matrix

当这里的大小为M,证明数据完整,如果是K,说明数据可能缺失

第四步 运行代码 下载数据

#数据下载rm(list = ls())#清空数据library(GEOquery)#加载包#先去网页确定是否是表达芯片数据,不是的话不能用本流程。gse_number = "GSE56649"eSet <- getGEO(gse_number, destdir = '.', getGPL = F)#下载并读取class(eSet)#列表length(eSet)#列表长度eSet = eSet[[1]]#提取列表#(1)提取表达矩阵expexp <- exprs(eSet) #提取dim(exp)exp[1:4,1:4] #正常范围在0-20之间#检查矩阵是否正常,如果是空的就会报错,空的和有负值的、有异常值的矩阵需要处理原始数据。#如果表达矩阵为空,大多数是转录组数据,不能用这个流程(后面另讲)。#自行判断是否需要logexp = log2(exp+1) #这一行下载的数据如果取过log,就不要运行。如果在几百,需要取log。如果在0-20,不用取log。为了避免0值,exp+1.甲基化+0.0001,为了保证取log后不会有负无穷。boxplot(exp)#(2)提取临床信息pd <- pData(eSet) #pd文件是样本信息#(3)让exp列名与pd的行名顺序完全一致p = identical(rownames(pd),colnames(exp));p #exp是表达矩阵,identical表示判断是否一致if(!p) exp = exp[,match(rownames(pd),colnames(exp))] #match#(4)提取芯片平台编号gpl_number <- eSet@annotation;gpl_number#@和$都表示提取子集,可以通过补齐判断,或者用str().save(gse_number,pd,exp,gpl_number,file = "step1output.Rdata")

提取的转化后的eSet格式为ExpressionSet 可以被Biobase(R包)提取。(狭义的对象,是被R包的作者定义的)。

这里可以显示下数据有多少行,小于2万行,可能数据不完整

验证数据是否正常

boxplot(exp)

异常值的处理办法 1.删掉异常样本

2.exp=limma::normalizeBetweenArrays(exp)

关于表达矩阵里的负值

有一半的负值可以做热图,不做差异分析。

关于原始数据

下载的加速函数,可以替代最开始的下载数据函数

rm(list = ls())library(GEOquery)library(AnnoProbe)#先去网页确定是否是表达芯片数据,不是的话不能用本流程。gse_number = "GSE56649"eSet = geoChina(gse_number)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GEO数据分析流程之芯片1
提取的转化后的eSet格式为ExpressionSet 可以被Biobase(R包)提取
生信菜鸟团
2024/06/28
900
GEO数据分析流程之芯片1
从零开始的异世界生信学习 GEO数据库数据挖掘--GEO代码-芯片数据分析-1
在列表中取子集后得到"ExpressionSet"结构数据,为"Biobase"包中的数据形式
用户10361520
2023/03/09
1K0
GEO数据库(一)
2、本地安装:从github官网上R包界面下载到本地,并放到当前工作目录下,使用如下命令:
祈祈
2023/04/26
1.3K0
表达芯片数据分析1
芯片的差异分析需要输入表达矩阵(数据分布0-20,无异常值,如NA,Inf等;无异常样本)、分组信息(一一对应,因子,对照组的levels在前)、探针注释(gpl编号,对应关系)。
Erics blog
2023/09/25
5670
Day08 生信马拉松-GEO数据挖掘 (上)
文章所有内容均来自生信技能树“生信马拉松-数据挖掘班”授课内容个人整理,如需转载请注明出处。
大冬仔
2023/08/19
5970
GEO数据挖掘
箱型图不显示原始数据点,而是采用样本数据,根据四分位数用盒和线来显示值的范围。此外,它们用星号显示落在箱须之外的离群值
可乐同学与生信死磕到底
2024/04/08
1910
跟小洁老师学习GEO的第二天
geoChina的用法 #数据下载 rm(list = ls()) library(GEOquery) #先去网页确定是否是表达芯片数据,不是的话不能用本流程。 gse_number = "GSE28345" library(AnnoProbe) eSet <- geoChina(gse_number, destdir = '.') class(eSet) length(eSet) eSet = eSet[[1]] 批量安装R包 options("repos"="https://mirrors.ustc.e
贝诺酯
2023/03/19
5070
R语言学习笔记-Day07
数据下载(DEO、TCGA)-差异分析(芯片与转录组不相同)-WGCNA(加权共表达网络)-富集分析(ORA、GSEA)-PPI网络-预后分析(影响生存的疾病)
用户11190095
2024/07/09
1350
生信技能树 Day8 9 GEO数据挖掘 基因芯片数据
有时eSet里面有两个对象,可以到网页看一下,可能是因为测了两种芯片,我们分开分析就好。
用户11064093
2024/04/19
3820
GEO数据库挖掘
输入数据是数值型矩阵/数据框,颜色的变化表示数值的大小。有相关性热图和差异基因热图。
叮当猫DDM
2023/07/16
7591
GEO
用户10667093
2023/07/24
2740
生信技能树GEO数据挖掘直播配套笔记
二代测序(RNA_seq):如果是counts 可选择limma的voom算法或者edgeR或者DESeq2。 如果是FPKM或TPM可选择limma,注意:edgeR和DESeq2只能处理count注意:count做差异分析计算上下调,FPKM或TPM进行下游可视化
生信技能树
2022/06/08
2K0
生信技能树GEO数据挖掘直播配套笔记
GEO数据挖掘-基于芯片
在require()函数中,如果直接传递包的名称作为参数,不需要加引号;如果包的名称以字符串形式存储在变量中,则需要使用character.only = TRUE来指定这个变量是一个字符串
sheldor没耳朵
2024/07/23
2070
GEO数据挖掘-基于芯片
GEO芯片数据下载和在R语言的准备
不会写代码的医学生
2024/03/15
2060
「Workshop」第二十四期 GEO芯片数据处理-1
图中的Dim1~Dim2分别是指主成分1和主成分2, Dim1代表解释数据变化趋势最多的主成分,Dim2则是解释变化趋势第二多的主成分。括号内的百分比则是代表了不同主成分所能解释数据变化趋势的比例。中心位置的大点代表该组的位置。一个点是一个sample,点距离代表相似性(差异)。
王诗翔呀
2020/11/20
1.4K0
「Workshop」第二十四期 GEO芯片数据处理-1
GEO表达芯片数据分析
---title: "GEO表达芯片数据分析"output: html_documentdate: "2023-03-20"---关于该流程代码的说明:(1)本流程仅适用于GEO芯片表达数据,以"GSE56649"为例(2)先在GEO数据库中确定是否为"Expression profiling by array",不是的话不能使用本流程!(3)注意需要自行修改或判断的代码一般放在了两个空行之间(4)代码的注释有一丢丢多,目的是为了更好地帮助大家理解1.下载数据,提取表达矩阵、临床信息和GPL编号rm(lis
小叮当aka
2023/03/23
3.2K1
GEO数据挖掘代码1(从geo下载数据)
在GEO上搜索数据,下载其表达矩阵(如果以M为单位,说明文件可用;如果大小只有K,说明文件不可用)
Labetaloliiixxx
2023/02/17
1.5K0
跟小洁老师学GEO的第一天
检查矩阵是否正常,如果是空的就会报错,空的和有负值的、有异常值的矩阵需要处理原始数据。0~20之间就是一个已经取过log的矩阵
贝诺酯
2023/03/18
5150
R包下载
options("repos"="https://mirrors.ustc.edu.cn/CRAN/")if(!require("BiocManager")) install.packages("BiocManager",update = F,ask = F)options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")cran_packages <- c('tidyr', 'tibble',
用户10412487
2023/03/28
3240
GEO
生成Group向量的三种常规方法,三选一,选谁就把第几个逻辑值写成T,另外两个为F。如果三种办法都不适用,可以继续往后写else if
浅念
2023/04/04
1.5K0
相关推荐
GEO数据分析流程之芯片1
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文