专栏首页生信修炼手册原始数据不仅有GEO, 还有ArrayExpress!

原始数据不仅有GEO, 还有ArrayExpress!

和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

>https://www.ebi.ac.uk/arrayexpress/

数据来源于下图所示的两个部分

第一部分是由科研工作者提交的数据,第二部分是从GEO数据库自动导入的数据。在NAD代谢相关的文章中,就提到了来自该数据库的原始数据,链接如下

https://www.ebi.ac.uk/arrayexpress/experiments/E-TABM-940/

对于每个数据集,都提供了该数据的简要描述,比如物种,样本数目,平台等信息

在Files一栏中,可以查看需要下载的文件

点击all available files, 就会显示所有的文件,主要分成了两部分,数据集的原始数据和芯片平台的注释信息

从该数据集的描述可以看到,使用的是Affymetirx的芯片,所以在下载数据集,我们需要获取以下3种信息

1. 芯片表达谱

表达谱包括了原始数据和整理好的表达量文件,在该数据集中,raw.zip就是原始的芯片下机数据。解压缩之后可以看到后缀为cel的原始数据

可以通过affy等R包读取这些原始文件,从而生成表达量矩阵。为了方便,该数据集之类提供了一个r对象,即后缀为eSet.r的文件,该文件其实就是读取原始数据后生成的R对象。在R环境中,通过如下代码可以读取该文件

load("E-TABM-940.eSet.r")
# 所有的对象默认都叫做study, 所以通过重命名来区分不同的数据集
data <- study
# 查看表达量
head(exprs(data[1:5, 1:5]))

在后缀为idf.txt的文件中,提供了该数据集的一些简要描述信息

在后缀为sdrf.txt的文件中,提供了样本的描述信息,该文件为纯文本文件,每一行为一个样本,部分列名如下

可以看到,包含了样本的各种信息,以Characteristics 和 Factor 开头的列需要重点关注,这里面可能就包含了重要的分组信息和生存数据。

2. 芯片的注释信息

在芯片的数据中,后缀为adf.txt的文件提供了探针的各种注释信息,每一行为一个探针,部分内容示例如下

详细的表头如下

可以看到,包含了ensembl, refseq, genebank等多种注释信息。

另外还有一个非常重要的文件,就是后缀为cdf.gz的文件。在用R读取该文件芯片的原始数据cel文件时,需要对应的cdf文件。对于一些常规型号的芯片,在R中集成了对应的cdf文件,在读取阶段会自动下载对应的cdf文件,但是对于非常规,少见的自定义芯片,就必须手动下载该文件了。

值得注意的是,本文介绍的方法是针对affymetrix芯片平台的,目前芯片平台主要由Agilent, illumina, Affymetirx 3种,不同的芯片来自不同的厂家,其文件格式和处理方式有很大不同,必须针对不同的平台采取不同的方法。

·end·

—如果喜欢,快分享给你的朋友们吧—

文章分享自微信公众号:
生信修炼手册

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:lzyg
原始发表时间:2022-04-06
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 一文解决ArrayExpress下载(网页版和R语言)

    GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据。

    用户1359560
  • ArrayExpress数库简介

    和GEO数据库类似,ArrayExpress是属于EBI旗下的公共数据库,用于存放芯片和高通量测序的相关数据,网址如下

    生信修炼手册
  • 基础科研不得不了解的实用数据库!

    这么长时间以来,我们推荐过的数据库差不多有好几十个,今天把最常用的一些的实用数据库汇总整理了一下:

    DoubleHelix
  • CancerSCEM: 人类癌症单细胞表达图谱数据库

    一个包含人类多种癌症的scRNA数据库CancerSCEM,除了常规的分析之外,还提供网站可视化和在线分析(https://ngdc.cncb.ac.cn/ca...

    生信技能树jimmy
  • CancerSCEM: 人类癌症单细胞表达图谱数据库

    一个包含人类多种癌症的scRNA数据库CancerSCEM,除了常规的分析之外,还提供网站可视化和在线分析(https://ngdc.cncb.ac.cn/ca...

    生信技能树
  • 基因芯片数据分析(一):芯片数据初探

    简单地讲,基因芯片就是一系列微小特征序列的(通常是DNA探针,也可能是蛋白质)的集合,它们可以被用于定性或者定量检查样品内特异分子的成份。比如说,基因芯片可以检...

    DoubleHelix
  • 文献阅读:NAD+代谢相关基因在肌萎缩侧索硬化症中的预后研究

    https://www.frontiersin.org/articles/10.3389/fcell.2022.831273/full

    生信修炼手册
  • Oncomine数据库已终止服务!万字长文含泪总结常用医学公共数据库【建议收藏】

    在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库...

    用户6317549
  • 基因芯片数据挖掘分析表达差异基因

    基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸...

    DoubleHelix
  • Oncomine数据库已终止服务!万文长篇含泪总结常用医学公共数据库【建议收藏】

    在肿瘤研究中,Oncomine是非常重要的样本数据库,它整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据,是目前世界上最大的癌基因芯片数据库...

    用户6317549
  • 甲基化芯片数据下载的多种技巧

    前面我们介绍了一些背景知识,主要是理解什么是DNA甲基化,为什么要检测它,以及芯片和测序两个方向的DNA甲基化检测技术。具体介绍在:甲基化的一些基础知识,也了解...

    生信技能树
  • 爆肝整理肿瘤生信数据库(收藏贴一)

    小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了...

    作图丫
  • NAR| 表观组关联分析数据库 - EWAS Data Hub

    近年来, 表观组关联分析(Epigenome-wide Association Study,EWAS)已成为探索复杂性状表观遗传基础的有效策略。随着大量EWAS...

    生信宝典
  • GEO数据库表达谱差异基因分析

    关于GEO数据库表达谱差异基因分析,网上有很多教程,但很多都不系统,几乎千篇一律,而且都是直接使用整理好的矩阵文件来操作的。大家都知道,GEO数据库只负责用户上...

    DoubleHelix
  • 开局一个转录组,收获一篇science

    诚然,单细胞CNS好文层出不穷,不过最近无意中看到了一个传统的bulk转录组测序的science,还是蛮值得分享的。本次要介绍的文章也不旧,发表于2019年2月...

    生信技能树
  • 根据分组信息做差异分析- 这个一文不够的

    通过前面的讲解,我们顺利的了解了GEO数据库以及如何下载其数据,得到我们想要的表达矩阵,也成功的使用了GSEA这个分析套路。 历史目录: 解读GEO数据存放规律...

    生信技能树
  • ProteomeXchange|iProX -蛋白质谱储存平台

    之前对公共测序数据分析的系列贴当中 [[0.最最最基础生信分析总结]] 提到,目前对于高通量测序的结果主要储存在 GEO 数据库当中。其中在 GEO 当中主要保...

    医学数据库百科
  • 开发 | 什么?他用 2 小时做出了一个「简版大众点评」小程序

    有人曾说:「人生至少有两次冲动,一次为了奋不顾生的爱情,还有一次就是为了说走就走的旅行」。

    知晓君
  • aglient芯片原始数据处理

    我多次在学徒作业强调了 3大基因芯片产商里面,就Agilent公司的芯片比较难搞,比如Agilent芯片表达矩阵处理(学徒作业) 以及 oligo包可以处理ag...

    生信技能树

扫码关注腾讯云开发者

领取腾讯云代金券