二师兄系列:如何优雅地一步提取GEO数据

首先感谢大家在

你的态度决定ta的去留

中的不杀之恩,最终获得了超过500个赞。同时也大家也初见GEO数据库对于我们发SCI的重要之处,ta也没的说,是当今最大、最全面,公开的基因表达数据资源,上面包含不同分组的临床样本的多个基因的表达量水平信息,比如肿瘤组织和正常组织的基因表达差异,我们可以认为:那些在肿瘤组织中高表达的基因很可能和肿瘤发生转移相关,由此指导我们的课题方向,课题思路,甚至写出一篇文章。

而这一切都是现成的,并不需要你花钱自己去测序,甚至不用做实验,所以利用Geo数据库这种“零成本”发文章的方法让很多临床的小伙伴屡试不爽

由上可知,要利用这个数据库的数据,首先要下载到样本信息(肿瘤还是正常组织)基因表达信息(基因表达量),对数据的下载,目前GEO数据库提供的下载主要有两种方式:

一、原始数据下载

二、处理好的矩阵下载

很遗憾,以上两种方式下载的数据都不能一步到位到后续的分析中,对于初涉生信的同学来说,不同测序平台,芯片平台,不同探针对应形式复杂,更是对数据处理一头雾水。GEO芯片数据转换器旨在提供一个一步到位的方法将提取GEO芯片数据的样本信息和基因表达数据,工具视图如下:

从图中可以看出,界面极其简洁,一看就会。

step1:导入从GEO下载好的数据

step2:点击导出样本信息(临床信息,比如是肿瘤组织还是正常组织,分期等,便于分组)

step3:选择要转换的ID(比如探针转换gene symbol),选择需要提取的数据列

step4:导出数据矩阵(基因表达信息,比如这个样本某个基因的表达量高低)

由以上处理后,不同探针都可以转换成统一的不同组织对应相应的基因表达量数据,也就可以实现推文开头说的目的了。

以GEO芯片数据GSE14520为例(不懂哪里下,点这里):

首先从GEO下载GSE14520数据:

从图中可以看出共有488个样本,我们选择MINiML格式的数据(软件只支持该格式),下载完:

然后我们将该文件导入到软件中:

从图中可以看出,软件将该文件解析出来两个平台的数据GPL571和GPL3921,样本数与下载时页面显示一致,我们点击导出样本信息:

最终得到了SampleInfo.xls,打开文件看看如下:

从图中可以看出我们成功的导出了样本的临床信息,主要表中的分号,分号分割的是多次随访,有些样本可能存在多次回访,所以该信息我们使用分号分割

下面我们导出样本数据矩阵,首先我们需要选择导出来的矩阵中是探针形式的还是genesymbol等其他ID形式的:

如图,我们选择geneSymbol形式导出,下一步我们需要选择导出的数据列,这个例子中只有两列:Column1、Column2,从左侧的表中我们可以知道Column2是数据列,所以在step2中选择Column2,对于当多个探针对应一个基因是我们选择其中位数代表该基因的表达值,当然软件提供了三种方式,都可以选择,如下图:

点击导出数据矩阵:

这样我们就将这套GSE数据中的GPL571平台的43个样本的数据导出来了,使用Excel打开数据Merge_GPL571.expro.txt如下:

以上对应的是不同样本的多个基因的表达量信息。

获得以上2种信息后,就可以导入到其他生信小工具进行各种分析,各种图啦!

怎么做呢?下回见啦...

二师兄系列

我是二师兄,我就是看不惯哪些动不动就R语言,敲代码教生信的老师,我就是要不用一行代码搞定所有生信分析,且质量等同R语言,因为我有神器!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180926B21NJH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券