欢迎关注”生信修炼手册”!
对于人类的基因而言,不同数据库提供了不同的命名方式。对于初学者而言,非常容易搞混淆。今天我们就来理一下,常见的基因命名方式。
首先看一下NCBI中基因的信息如何命名,NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。
以TP53
为例, 链接如下
https://www.ncbi.nlm.nih.gov/gene/7157
链接中的7157
就是这个基因的Entrez ID。在该链接中,我们可以看到以下信息
gene symbol
指的是基因的名字,对于每个基因,都有对应的symbol, 根据来源可以分为以下两类
official symbol
指的是由HGNC这个组织提供的基因的名称,HGNC是一个基因命名委员会,负责对人类基因组上的所有基因提供一个唯一的,标准的,可以广泛传播的symbol。HGNC命名的基因收录在以下数据库中
http://www.genenames.org/
除了symbol外,还提供了HGNC id
, TP53基因对应的id为HGNC:11998。
如果这个基因没有HGNC提供的Symbol, 就在Entrez ID的前面添加LOC
前缀作为其symbol, 比如LOC100653049
在NCBI中,所有的基因都有Entrez ID
和Gene Symbol
, 其中只有部分基因拥有HGNC Symbol
。
Ensembl 数据库也收录了基因的信息,用Ensembl ID
表示每个基因,以ENSG
开头,上述例子中的TP53
对应的Ensemb的ID为ENSG0000014150
。需要注意的是,Ensembl和NCBI收录的基因总数不相同。
UCSC的基因ID以uc
开头,比如uc003tqk.4
, 称之为knownGene, 完整的基因列表可以从以下链接下载
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz
KEGG的Gene 数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如tp53
对应的kegg gene id 为hsa:7157
。链接如下
https://www.kegg.jp/dbget-bin/www_bget?hsa:7157
对于大部分基因而言,会有以下5种类型的ID
对于特定类型的基因,还会有自己的数据库
miRNA目前公认的是miRBase 数据库的ID,MIR21
对应的miRBase的ID 如下
lncRNA目前没有一个统一的命名,lncRNAdb, LNCipedia等数据库都有自己的ID。
其他类型的基因也会有自己的数据库,这里就不一一展开了。
·end·
—如果喜欢,快分享给你的朋友们吧—