首页
学习
活动
专区
工具
TVP
发布

GEO芯片探针注释

GEO数据库中

https://www.ncbi.nlm.nih.gov/geo/

存储着大量的来源于各种平台(Platforms)的数据:

基于Technology,又可分为以下几大类:

芯片主要以Affymetrix、Agilent、Illumina(对!Illumina不只会测序)这三家为主,而基于不同的使用目的和技术革新,每家又发布了一系列的芯片平台,以Affy为例,在GEO数据库中共有1200+个平台(每个平台在GEO中对应一个GPL*编号):

注:Affymertix检测样本量最多的10个平台,其中HG-U133_Plus_2已达到100000+个样本!

对于GEO中的每套芯片数据(每套数据在GEO中对应一个GSE*编号),其都会对应一个或多个平台,即数据由一个或多个芯片平台产生并放置在同一个GSE*编号下。

以GSE3933为例,该数据集收录由3个平台(GPL2695、GPL3044、GPL3289)检测的共计112个样本的基因表达数据:

虽说是基因表达数据,但是GEO数据库中极少可以直接下载到基因水平的表达数据,基本上都需要经过数据的预处理或是简单的探针对应基因的操作,所以绕不开的步骤就是得到探针与基因的对应关系。当然对于不同公司、不同类别的芯片,其探针命名方式,以及最终与基因的对应关系是有区别的,所以如何得到探针注释将是生信分析前必须要考虑的问题。

小编列举3种方式供大家参考:

1、GEO数据库在线下载:

以上示GPL2695平台为例,其具体信息可以通过如下链接查看:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL2695

页面下拉可见探针注释信息,如下:

可见共有44160个探针记录,两种方式可下载,View full table:

第一列即探针名,也常为GSE*_series_matrix.txt的第一列,其后则是每个探针的具体注释信息。

而点击Annotation SOFT table会直接下载一个压缩文件

ftp://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL2nnn/GPL2695/annot/GPL2695.annot.gz

解压后可用notepad++等文本编辑软件打开,再拷贝到excel中查看,格式如下:

这款芯片是十几年前的芯片,其实对于大多数芯片来讲,View full table中即可得到探针对应的基因,所以如果View full table中刚好没有,则可以下载Annotation SOFT table文件试试!

实在不行,还可参考将View full table中的GB_LIST转化为Gene Symbol:

https://support.bioconductor.org/p/61827/

此种下载探针注释文件的好处在于,每套数据都会给定探针的注释信息,不用考虑从其他地方苦苦寻找,所以下载GEO数据的时候就可以顺便下载探针注释文件!

2、Bioconductor Annotation Packages

https://bioconductor.org/packages/release/data/annotation/

部分注释包如下:

如上就是比较常见的几款Affy芯片的探针注释包,对于后续用R进行统计分析的小伙伴来说,bioconductor中收集的各种探针注释包是个不错的选择,使用select函数即可从注释包中轻松提取探针对应的基因信息!

3、biomaRt

http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html

基于多种数据库进行数据转换:

所以,biomaRt的全面和强大并不仅仅局限于探针到基因的对应关系,甚至在生信分析过程中你会经常看到或用到它,当然,你所能用它解决的问题取决于你对其了解的程度!

library(biomaRt)

mart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

查看biomaRt中集成的Affy注释包:

知道了数据的平台就可以做探针-基因提取啦,如affy_hg_u95b:

probes2genes = getBM(attributes = c("affy_hg_u95b", "hgnc_symbol"), filters = "affy_hg_u95b", values = probes, mart = mart)

当然,能做探针注释的工具多如牛毛,比如大名鼎鼎的DAVID,GSEA等工具都集成了ID convert的功能,这些工具的区别在于其所基于的数据库,所以不同工具得到的结果可能会有一些差异,小编在钻了几次牛角尖之后放弃了寻找所谓注释最好最全的方法,还是用的顺手就好!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180129G0XRBE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券