启动bioconductor的“GEOquery”包。
代码如下:
source("https://bioconductor.org/biocLite.R")
biocLite("GEOquery")
GEOquery 的使用说明见下面链接:
http://www.bioconductor.org/packages/release/bioc/vignettes/GEOquery/inst/doc/GEOquery.html
载入包GEOquery: library (GEOquery)
获取数据包:
首先在自己的电脑新建文件夹作为存储数据的地方,然后执行下面的代码
Data<- getGEO("GSE2669",destdir="F:/geo/")
如下图:
代码解释:获取数据编码:GSE2669;数据下载存储地方:F:/geo/
然后获取矩阵数据:
myMatrix <- Data@GSE2669_series_matrix.txt.gz@assayData$exprs
获取样本数据:
myPDfile <- pData(phenoData(Data@GSE2669_series_matrix.txt.gz))
Meta(GSE2669):查看这个数据集的情况
GSMList(GSE2669):查看每个GSM具体
GPLList(GSE2669):查看GPL平台,常用来作为芯片注释
如果数据下载完成后出现错误:
那么可以用下面的代码载入已经下载好的数据:
Data <- getGEO(filename="F:/geo/GSE2669_series_matrix.txt.gz")
myMatrix <-Data@assayData$exprs
myPDfile <- pData(phenoData(Data))
以上获取里面的基因表达数据以及相关的样本数据过程有点漫长,如果觉得难以等待,可以直接用EXCEL打开,将里面的表达和样本数据直接复制出来另存为。
获取单纯的整合后的基因表达数据可以通过GDS:
gds <- getGEO("GDS507")
Meta(gds) :查看GDS的整体信息
Table(gds) 展示基因表达数据的矩阵
Meta(gds858)$platform 获取其平台信息
获取某个平台的信息:
gpl97 <- getGEO('GPL97')
查看详细的平台信息:
Meta(gpl97)
其实我们只需要一些重要的数据信息:
获取注释信息内容:
获取当前平台的所有样本ID:
获取当前平台的所有数据集信息: