前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

公共数据库挖掘第一步-GEO数据库下载表达谱数据和生存数据

作者头像
生信修炼手册
发布2022-04-18 15:29:21
1.5K0
发布2022-04-18 15:29:21
举报
文章被收录于专栏:生信修炼手册生信修炼手册

在NAD+代谢相关基因的文章中,针对来自GEO数据库的ALS患者的表达谱数据进行了挖掘,本文就以这两批GEO数据为例,来详细展示原始数据的下载过程

公共数据库的数据挖掘有多种模式,每种模式需要的原始数据也不尽相同。所以,首先我们要明确目标,对于这个基因建模而言,我们需要以下两种数据

1. 基因表达谱

2. 患者的生存数据

明确目标之后,我们就可以针对的来分析寻找数据了

1. 基因表达谱

在GEO数据库中收录的表达谱数据有两种类型

1. 基于NGS的表达谱

2. 基于芯片的表达谱

二者的模式稍有不同,芯片平台以探针为单位,而NGS的数据直接以基因为单位。我们最终希望得到的表达谱数据就是行为基因,列为样本的表达谱,所以

1.对于芯片平台,在下载表达谱的同时,我们还需要下载芯片对应平台的注释文件,主要是提供探针到基因的映射关系

2.对于NGS, 基因定量的坐标来自于GTF文件,芯片平台在NGS就对应了GTF的版本

GEO一开始就是用来存储芯片表达谱数据的,所以对于芯片恶言,会有一个通用的格式,以GSE112676为例,数据链接如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE112676

我们需要重点关注两部分

首先看supplementary部分,这部分会提供作者整理好的一些数据,我们可以根据文件名判断是否是我们需要的文件,比如这里的preQC_nonnormalized.txt 就是归一化之后的表达谱,我们直接下载这个文件就可以了。raw.rar 文件是芯片的原始文件,当实在找不到现成的表达谱时,也可以从原始数据重头开始分析。

第二部分关注Download family这部分,该部分提供的是芯片的原始表达谱和样本注释信息,对应3种不同格式,其中的series matrix 是TXT格式,我们使用起来最方便,直接点击链接进去下载即可。

下载完成之后是一个压缩文件,直接解压即可,用excel打开该文件,可以在找到如下图所示的部分数据

该数据就是探针水平的原始表达量数据了。对于芯片而言,所用的芯片平台都会给出,在platform一栏中可以看到

点击对应链接,可以跳转到该平台的注释信息,示例如下

提供了探针对转录本,基因等多种注释信息的映射,我们可以下载完整的注释表格。

2. 生存数据

series matrix文件不仅包含探针表达量信息,在Sample_characteristics_chr1 部分的注释信息中,还会提供关于样本的各种信息,有些作者会把样本的生存数据存放在这里,GSE112676示例如下

如果GEO里面找不到,可以去查看数据对应的文献或者联系文章作者来获取。

·end·

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档