前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >详解人类基因在不同数据库中的ID

详解人类基因在不同数据库中的ID

作者头像
生信修炼手册
发布2020-05-08 16:40:11
2.5K0
发布2020-05-08 16:40:11
举报
文章被收录于专栏:生信修炼手册生信修炼手册

欢迎关注”生信修炼手册”!

对于人类的基因而言,不同数据库提供了不同的命名方式。对于初学者而言,非常容易搞混淆。今天我们就来理一下,常见的基因命名方式。

首先看一下NCBI中基因的信息如何命名,NCBI的Gene数据库记录了不同物种的基因信息,在Gene数据库中,给每一个基因提供了一个唯一的ID, 这个ID叫做Entrez ID,Entrez是NCBI的检索系统的名字。

TP53为例, 链接如下

https://www.ncbi.nlm.nih.gov/gene/7157

链接中的7157就是这个基因的Entrez ID。在该链接中,我们可以看到以下信息

gene symbol指的是基因的名字,对于每个基因,都有对应的symbol, 根据来源可以分为以下两类

  1. offical symbol
  2. loc symbol

official symbol指的是由HGNC这个组织提供的基因的名称,HGNC是一个基因命名委员会,负责对人类基因组上的所有基因提供一个唯一的,标准的,可以广泛传播的symbol。HGNC命名的基因收录在以下数据库中

http://www.genenames.org/

除了symbol外,还提供了HGNC id, TP53基因对应的id为HGNC:11998。

如果这个基因没有HGNC提供的Symbol, 就在Entrez ID的前面添加LOC前缀作为其symbol, 比如LOC100653049

在NCBI中,所有的基因都有Entrez IDGene Symbol, 其中只有部分基因拥有HGNC Symbol

Ensembl 数据库也收录了基因的信息,用Ensembl ID表示每个基因,以ENSG开头,上述例子中的TP53对应的Ensemb的ID为ENSG0000014150。需要注意的是,Ensembl和NCBI收录的基因总数不相同。

UCSC的基因ID以uc开头,比如uc003tqk.4, 称之为knownGene, 完整的基因列表可以从以下链接下载

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz

KEGG的Gene 数据库也拥有自己的gene ID, 以三个字母的物种缩写和id构成,比如tp53对应的kegg gene id 为hsa:7157。链接如下

https://www.kegg.jp/dbget-bin/www_bget?hsa:7157

对于大部分基因而言,会有以下5种类型的ID

  1. NCBI entrez ID
  2. NCBI gene symbol
  3. Ensembl gene ID
  4. UCSC gene ID
  5. KEGG gene ID

对于特定类型的基因,还会有自己的数据库

1. miRNA

miRNA目前公认的是miRBase 数据库的ID,MIR21对应的miRBase的ID 如下

2. lncRNA

lncRNA目前没有一个统一的命名,lncRNAdb, LNCipedia等数据库都有自己的ID。

其他类型的基因也会有自己的数据库,这里就不一一展开了。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. miRNA
  • 2. lncRNA
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档