专栏首页生信修炼手册公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程

公共数据库的数据挖掘有多种模式,每种模式需要的原始数据也不尽相同。所以,首先我们要明确目标,对于这个基因建模而言,我们需要以下两种数据

1. 基因表达谱

2. 患者的生存数据

明确目标之后,我们就可以针对的来分析寻找数据了

1. 基因表达谱

在GEO数据库中收录的表达谱数据有两种类型

1. 基于NGS的表达谱

2. 基于芯片的表达谱

二者的模式稍有不同,芯片平台以探针为单位,而NGS的数据直接以基因为单位。我们最终希望得到的表达谱数据就是行为基因,列为样本的表达谱,所以

1.对于芯片平台,在下载表达谱的同时,我们还需要下载芯片对应平台的注释文件,主要是提供探针到基因的映射关系

2.对于NGS, 基因定量的坐标来自于GTF文件,芯片平台在NGS就对应了GTF的版本

GEO一开始就是用来存储芯片表达谱数据的,所以对于芯片恶言,会有一个通用的格式,以GSE112676为例,数据链接如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112676

我们需要重点关注两部分

首先看supplementary部分,这部分会提供作者整理好的一些数据,我们可以根据文件名判断是否是我们需要的文件,比如这里的preQC_nonnormalized.txt 就是归一化之后的表达谱,我们直接下载这个文件就可以了。raw.rar 文件是芯片的原始文件,当实在找不到现成的表达谱时,也可以从原始数据重头开始分析。

第二部分关注Download family这部分,该部分提供的是芯片的原始表达谱和样本注释信息,对应3种不同格式,其中的series matrix 是TXT格式,我们使用起来最方便,直接点击链接进去下载即可。

下载完成之后是一个压缩文件,直接解压即可,用excel打开该文件,可以在找到如下图所示的部分数据

该数据就是探针水平的原始表达量数据了。对于芯片而言,所用的芯片平台都会给出,在platform一栏中可以看到

点击对应链接,可以跳转到该平台的注释信息,示例如下

提供了探针对转录本,基因等多种注释信息的映射,我们可以下载完整的注释表格。

2. 生存数据

series matrix文件不仅包含探针表达量信息,在Sample_characteristics_chr1 部分的注释信息中,还会提供关于样本的各种信息,有些作者会把样本的生存数据存放在这里,GSE112676示例如下

如果GEO里面找不到,可以去查看数据对应的文献或者联系文章作者来获取。

·end·

文章分享自微信公众号:
生信修炼手册

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:lzyg
原始发表时间:2022-04-01
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • GEO数据库表达谱差异基因分析

    关于GEO数据库表达谱差异基因分析,网上有很多教程,但很多都不系统,几乎千篇一律,而且都是直接使用整理好的矩阵文件来操作的。大家都知道,GEO数据库只负责用户上...

    DoubleHelix
  • GEO二代测序表达数据下载数据库

    在GEO公共数据检索的时候,发现有一个数据集想要分析,但是发现是二代测序的数据,没有相关的原始数据处理经验,要怎么办呢?

    医学数据库百科
  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析...

    生信技能树
  • 物种保守行能说明它是目标分子吗

    但是在高通量测序大行其道的这10年,困扰大家的问题在于如何从繁多的基因定位到少量的几个基因,这也就是数据挖掘的核心,缩小目标基因!各种数据挖掘文章本质上都是要把...

    生信技能树
  • WGCNA分析+公共数据库挖掘你感兴趣的癌症

    原文链接: Application of weighted gene co-expression network analysis to identify ke...

    生信技能树
  • GEO数据库挖掘(1)--SCI文章速成

    最近这段时间,相信好多人都在忙着写国自然标书,一晃2019年的2月份已经过去,今年只剩下10个月了,留给我们的时间不多啦(像不像导师或者主任开会时的讲话啊

    用户6317549
  • 欧洲裔和非裔美国乳腺癌患者差异可以TCGA数据库验证

    差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;

    生信技能树
  • ArrayExpress数库简介

    和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

    生信修炼手册
  • 零代码差异表达分析工具:GEO2R

    相信GEO(Gene Expression Omnibus)数据库大家应该都不陌生,小编前面也通过三期视频详细的介绍过这个公共数据库,以及如何在GEO里...

    生信交流平台
  • 25张图带你玩转表达量差异分析思路

    研究者首先做了一个bulk转录组,走了标准的差异分析,拿到了上下调基因以及注释它们的功能。然后把这些基因在自己的单细胞转录组各个亚群具体看其是否有表达差异,发现...

    生信技能树
  • Oncomine数据库已终止服务!万字长文含泪总结常用医学公共数据库【建议收藏】

    在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库...

    用户6317549
  • Oncomine数据库已终止服务!万文长篇含泪总结常用医学公共数据库【建议收藏】

    在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库...

    用户6317549
  • 原始数据不仅有GEO, 还有ArrayExpress!

    和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

    生信修炼手册
  • 三阴性乳腺癌表达矩阵探索之数据下载及理解

    对文献解读的第三篇文章==Identification of Key Genes and Pathways in Triple-Negative Breast ...

    生信技能树
  • 纯生信胃癌ceRNA再发3分+

    大家好,今天和大家分享的是一月份发表在Cellular Biochemistry(IF:3.448)杂志上的一篇文章,“Identification of do...

    百味科研芝士
  • 为什么不用TCGA数据库来看感兴趣基因的生存情况

    而且使用TCGA数据库来看感兴趣基因的生存情况非常简单,一个网页工具即可,都无需R语言了。即使是这样,仍然是有文章并不使用TCGA数据库来看感兴趣基因的生存情况...

    生信技能树
  • cox可以火山图为什么gsea结果不行

    最近看到一个文献,是数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE101668

    生信技能树
  • 重复一篇3分左右纯生信文章(第一部分)

    这一次要分享的文章题目是:Five key lncRNAs considered as prognostic targets for predicting pa...

    用户1359560
  • 一文解决多个不同平台差异分析结果合并

    原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,...

    用户1359560

扫码关注腾讯云开发者

领取腾讯云代金券