专栏首页医学数据库百科GEO数据集详细介绍

GEO数据集详细介绍

1

数据集整体介绍

对于一个数据集而言,首先能看到的是提交这个数据的作者对于这个数据集的基本介绍。其中包括了数据集的题目、检测的物种、测序的类型和实验的整体设计。

我们主要是通过这一部分来选择我们想要的数据集,数据集是否符合我们的要求还是看我们想要做什么样子的分析。最基本的需要确定的就是:疾病分组、所用物种以及测序类型是否是我们想要的就行。

2

数据集贡献者信息

在这一部分我们能看到提交数据的作者的信息。

在这里面,我们主要还是看作者之前用这个数据集发表了什么文献,了解了人家发表了什么,我们才能去找其他方面的创新点。

3

数据集作用的平台

数据集所有的平台(Platforms),也就是我们指我们是用什么公司的什么检测技术来做的数据。例如,这个数据集就是用了Affymetrix公司的Human Genome U133 Plus 2.0芯片。

这里的平台还要出了告诉我们是用什么技术做的数据。另外的话,如果是芯片数据的话。还会包括一个注释文件。这里简单的说一下注释文件这个东西。

3.1 注释文件

注释文件:类似于密码解读器一样。我们在做芯片检测的时候,检测的一般都是一些核苷酸序列。这个就类似于一段看不懂的密码。对于我们而言,其实只是想知道基因的变化。通过注释文件,我们就知道一段段的密码对应的是什么基因了。那这段密码的变化也就代表这个基因的变化了。

拿这个表达谱芯片而言,我们点击GPL570的链接,就可以看到这个芯片的注释文件了。

4

样本信息

再往下,我们看到的就是样本信息了。每一个数据集都包括很多个样本。每个样本的基本信息,我们就可以在这个部分看到。

通过下图,可以看到这个数据集包括20个样本。其中10个是胃癌组织,另外十个则是正常对照组织。

所以对于GEO的数据而言,如果是GSE开头的就是数据集;如果是GSM开头的就是数据集里面的一个样本。

5

原始数据下载

在原始数据下载部分,GEO提供了多种下载方式。对于我们而言,如果想要下载原始数据的话,下载 矩阵文件(Series Matrix File(s)) 即可。如果一定要最原始的数据的话,则可以下载下面那个附加文件。

5.1 矩阵文件介绍

我们在下载了矩阵文件,解压之后可以用excel打开。

打开之后,主要也包括三种信息:

  • 数据集的信息: 以Series开头
  • 每一个样本的信息: 以sample开头。这里有时候会包括一些临床信息的。有的比如每个样本的TNM分期;预后信息都很良心的放到里面的。
  • 基因每一个ID在每个样本之间的表达信息。第一列是每一个探针的ID号,至于这个ID号对应的基因是什么。可以去注释文件当中找的

5.2 原始文件的用处

对于高通量数据而言,我们在得到这么多维度的数据,可以做点儿什么呢?

对于表达数据的分析,第一步要做的往往是找哪些在不同的疾病分组当中,存在差异的基因有哪些?这个俗称差异表达分析。如果我们只是来做差异表达分析的话,那其实也不用下载原始数据。在GEO里面有一个自带的工具就可以做。这个工具叫做GEO2R。这个我们明天在介绍。

PS: 那既然在线软件可以做了,为啥还要下载原始数据呢?原始数据其实也可以做其他的分析的嘛。我们矩阵当中一行就代表一个基因在各个样本的表达量,那例如:作者还提供了样本信息,比如说,提供了癌症患者的生存信息,那我们就可以来做每个基因是不是和生存有关系了。如果提供了TNM分期,那也就可以分析每个基因和TNM分析有没有关系了。至于如何分析嘛,最简单的SPSS应该还是可以做的吧。

本文分享自微信公众号 - 数据库百科(yxkygjx),作者:Hog

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何快速了解一个人体基因的所有信息 (二)

    昨天我们介绍了GeneCards可以查询的一部分功能 如何快速了解一个人体基因的所有信息 (一),还有一些没有介绍的,今天我们继续介绍完哈!

    匹咔球
  • GEO2R差异表达分析软件

    前两天我们对GEO数据库来了一个大致的介绍GEO数据集详细介绍GEO数据库介绍 (一)。我们对于目标数据集,我们做的第一个事情就是差异分析,来寻找有差异的结果...

    匹咔球
  • KnockTF:转录因子敲除数据库(二)

    昨天我们介绍了这个数据库的其中一部分功能 KnockTF:转录因子敲除数据库(一),今天把这个数据库的其它功能介绍完。

    匹咔球
  • 华能集团郭森演讲PPT:工业互联网安全初探

    以下为现场演讲实录!(以下报告内容来自中国信通院网站速记,由工业安全产业联盟公众号整理发布。)

    安智客
  • 数据库数据挖掘知识点总结(Microsoft 时序算法)

    前言 本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Micr...

    机器学习AI算法工程
  • 优质、精细、透明,巨量引擎PMP实现程序化营销“私人定制”

    当下营销投放环境日趋复杂,媒体类型不断丰富、广告与内容的边界开始模糊,用户行为越来越碎片化和个性化,广告主难以精准、高效地与目标受众深度沟通。

    iCDO互联网数据官
  • 以电商为例,说说数据分析的5个思维方法

    数据分析真的很重要,能从一堆看似杂乱的数据里,找到问题并解决问题。从数据上的变化,来判断甄别效果得失;简直是居家旅行,运营生意的必备良品。 首先,我们要知道,...

    CDA数据分析师
  • 以电商为例,数据分析的5个思维方法-简单粗暴

    在博主雪言舟语看来,数据分析真的很重要,能从一堆看似杂乱的数据里,找到问题并解决问题。从数据上的变化,来判断甄别效果得失;简直是居家旅行,运营生意的必备良品。 ...

    小莹莹
  • 人脑中1000亿个神经元正在指导AI的发展,未来我们甚至可以制造意识 | 专访诺奖得主和脑科学专家

    镁客网
  • 【数据分析】数据分析的五大思维方式,你具备几种?

    今天我们要来讲讲数据分析的五大思维方式。 首先,我们要知道,什么叫数据分析。其实从数据到信息的这个过程,就是数据分析。数据本身并没有什么价值,有价值的是我们从...

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券