常用的数据库ID，你真的分得清楚吗？

文章来源：企鹅号 - 赛哲生物股份

在做生信分析的时候，我们经常用到各种数据库，但是大家可能都发现，每个数据库都有自己数据库专有的ID号，通过这些ID号查找起相应的蛋白或者基因会更加方便。就如Ensemble数据库中ID是这样表示的ENSG00000116717。那到底我们该如何区分和认识不同数据库中的ID呢？今天，我们就带大家来看看吧~

01、Ensembl stable IDs

Ensembl stable ID的结构是根据不同物种设置的前缀，加上数据所指的类型，如基因蛋白质，再加上一系列的数字。有的时候可以有不同的版本，则在 Ensembl ID后面加上小数点和版本号。

常用物种前缀：

类型前缀：

02、UniProt

UniProt中录入的数据都被分配了一个唯一的entry name。

UniProtKB/Swiss-Prot entry name

UniProtKB/Swiss-Prot entry name 是最多有11位包含大写字母的字符串，一般有着“X_Y”的形式，其中“X”是最多五个便于记忆的蛋白质编号，“_”是下划线，“Y”是最多五个便于记忆的物种编号。

蛋白质编号:

物种编号示例如下:

UniProtKB/TrEMBL entry name

UniProtKB/TrEMBL entry name 是最多16位包含大写字母的字符串，一般有着“X_Y”的形式，其中“X”是6到10个字符组成的accession number，“_”是下划线，“Y”是最多五个便于记忆的物种编号。

Accession Number

UniProtKB的Accession Number相当于数据库的主键，由6到10个大写字母或者数字组成。其构成规律为：[OPQ][0-9][A-Z0-9][0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9][0-9])。

accession number的三种类型：

如果一个条目被分成两个，或者多个条目合成一个，则有相应的accession number继承规则。

03、HUGO Gene Nomenclature Committee

Gene Symbol

Gene Symbol是用来表示基因的编码，由大写字母构成，或由大写字母和数字构成，首字母均应该是字母。

如：GLA "galactosidase，alpha"；GLB "galactosidase,beta"； UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1"再到UGT1A13代表了13个不同的gene symbol。

04、NCBI

GenBank Accession Number

GenBank的通用accession number通常是由一个大写字母加上5个数字的组合，或者两个大写字母加上6个数字的组合。

RefSeq Accession Number

RefSeq有一套特殊的Accesion Number。形式是：[A-Z][_][0-9]，两个大写字母，一个下划线，6个或更多的数字。

05、Entrez ID

Entrez是NCBI使用的能够对众多数据库进行联合搜索的搜索引擎，其对不同的 Gene进行了编号，每个gene的编号就是entrez gene id。由于entrez id相对稳定，所以也被众多其他数据库，如KEGG等采用。Entrez Gene ID就是一系列数字，也比较容易辨识。R或网站都有众多的工具可以帮助从不同的ID转换为 entrez id或者反向转换。

06、UCSC ID

UCSC ID由小写字母和数字构成，起始均为uc，然后是三位数字，接着又是三位小写字母，最后有小数点和数字构成版本号。如：uc010qfk.3，uc010qfk.3

看完了今天的介绍，大家理解了吗？还有什么不懂的也可以和我们讨论讨论喔~

赛哲生物︱成就创业与创新梦想

发表于: 2018-05-162018-05-16 10:00:24
原文链接：https://kuaibao.qq.com/s/20180516B0FKL800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

常用的数据库ID，你真的分得清楚吗？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐