生信菜鸟团博客2周年精选文章集(4)NCBI数据库的几个探索

目录如下:

生信人必学ftp站点之NCBI-GEO 脚本作业-解读NCBI的ftp里面关于人的一些基因信息 NCBI的taxid简单介绍 NCBI的基因entrez ID相关文件介绍

请直接看我博客吧,下面排版不好:

NCBI的重要性我就不多说了,Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据!所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/

首先,我们在GEO的主页可以看到:

截止到2016年8月2日,统计信息如上,可以看到数据量很恐怖了。

GEO数据库基础知识

  • GEO Platform (GPL) 芯片平台
  • GEO Sample (GSM) 样本ID号
  • GEO Series (GSE) study的ID号
  • GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载:

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets08/02/2016 05:39AM      Directory platforms08/02/2016 05:39AM      Directory samples08/02/2016 05:39AM      Directory series

网址都是很有规律的!(请务必注意规律)

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

我们一般是拿到了GSE的study ID号,然后直接把什么的url修改一下,就可以看到关于该study的所以描述信息,是用的什么测序平台(芯片数据,或者高通量测序),测了多少个样本,来自于哪篇文章!

所有需要的数据均可以下载,而且都是在上面的ftp里面可以根据规律去找到的,甚至可以自己拼接下载的url链接,来做批量化处理!

如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。

如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!

物种的信息集合都在它的NCBI的taxid号里面,在NCBI里面关于它的英文介绍地址如下 http://www.ncbi.nlm.nih.gov/guide/taxonomy/ ,NCBI人为的给自然界所有的物种都给了一个编号,这个编号就是taxid,是根据计算机里面树这种数据结构来编码的,其中人类的编号是 9606,7227是果蝇,我们只需要进入这个物种的taxid里面就能看的关于它的一切NCBI存在并且收集好的信息。

可以看到NCBI到2015年为止已经收录近50万的物种的基因。

我们可以进入人类的9606这个ID里面进去看看

http://www.ncbi.nlm.nih.gov/taxonomy/?term=9606[uid]

可以看出,人类这个并不是最底层的taxid类别,下面还有两个分类

关于人类这个物种的信息是非常多的

http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=9606&lvl=3&lin=f&keep=1&srchmode=1&unlock

但是它下面的两个亚种人,就比较少的信息。

关于这个taxid的资料还有很多 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/

其中我们可以下载 wget ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz 这个文件,解压可以看到里面有以下文件,其中比较重要的两个文件

nodes.dmp 这个文件列出了taxid的树的结构信息,子节点,父节点等等

names.dmp 这个文件里面列出了每个独特的taxid对应着的物种名

其它信息不重要,自己看咯

NCBI的基因entrez ID相关文件介绍

地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:

一:第一个文件是gene2ensembl

第一列:物种ID号

第二列:gene的entrez ID号

第三列:Ensembl_gene ID号

第四列:RNA的NCBI索取号

第五列:RNA的Ensembl_ ID号

第六列:protein的NCBI索取号

第七列:protein的Ensembl_ ID号

一般,一个gene有多个蛋白

7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本

第二个文件是gene2accession

第一列:物种ID号

第二列:gene的entrez ID号

第三列:status

第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi

第五列:protein_accession.version ,protein_gi

第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi

第七列:然后是start和end的pos坐标,还有正负链的标记

第八列:

第三个文件是 gene2pubmed

总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign – start of a comment)

其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category

其中一个物种里面有多个基因,一个基因会有多个GO通路

第五个文件是gene_info

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小白课代表

更新 | 上万款街机游戏,找回童年的感觉——海星模拟器

1753
来自专栏SAP最佳业务实践

SAP S/4HANA最佳业务实践:Order-to-Cash订单到收款-3合同处理

•The tile Manage Sales Contracts is part of the business catalog Sales –Contract...

3419
来自专栏PPV课数据科学社区

【学习】七天搞定SAS(三):基本模块调用(格式、计数、概要统计、排序等)(下)

SAS里面总结数据:MEANS SAS当然还有类似于excel的数据透视表和R的data.table的模块,就是MEANS。可以输出的summary stat...

3056
来自专栏生信技能树

【直播】我的基因组58:用R包SNPRelate来对我的基因型跟hapmap计划数据比较

hapmap计划的人群分布结果和千人基因组计划的分布结果来分析是一样的!【直播】我的基因组55:简单的PCA分析千人基因组的人群分布 这两个计划里面收集的样本的...

4116
来自专栏杨建荣的学习笔记

使用sql语句分析双色球(85天)

这个题目看似有点无厘头,老写技术博客,也来干点“正事",用sql语句分析一下近十年来的双色球情况,不过我肯定算不出来开奖结果,纯属个人娱乐, 个人觉得概率让一切...

2626
来自专栏币聪财经

币聪挖矿教程系列之:SimpleBank(SPLB)挖矿初学者指南

Simplebank是一款基于Dash的硬币,具有许多独特的功能和Masternodes。Simplebank希望成为一个数字加密货币银行类型平台,它将使商家和...

872
来自专栏数据小魔方

ggplot2中如何自定义数据地图版面范围~

之前联系过程中遇到的一个小技术问题,就是在ggplot2制作数据地图时,使用标度调整参数进行范围限定时,总是出现错误,版面上出现交错的线条和条带。 应该是自己添...

3508
来自专栏机器之心

使用AMD CPU,3000美元打造自己的深度学习服务器

注:本文旨在讨论服务器设置及多用户协作,部件组装和软件安装过程是 Slav Ivanov 关于创建自己的 DL Box 的文章(https://medium.c...

1262
来自专栏SAP最佳业务实践

想学FM系列(16)-SAP FM模块:预算结构(7)-预算结构操作-多层预算结构维护

3.2.2.3 多层预算结构的维护 ? 1)FMHIE_HIEID- 编辑层次结构标识 功能为多层预算结构备用树定义一相标识ID,并定义相关属性,为之后生成备...

3988
来自专栏IT派

你以为越复杂的密码越安全?小心那些错误认知

如何在网络社会中保护自己的个人隐私,长久以来都是一个让人挥之不去的现实问题。几十年的积累,现代人已经完全掌握了密码的“构造”方法,自认为从此便可以真的高枕无忧,...

742

扫码关注云+社区