在做生信分析的时候,我们经常用到各种数据库,但是大家可能都发现,每个数据库都有自己数据库专有的ID号,通过这些ID号查找起相应的蛋白或者基因会更加方便。就如Ensemble数据库中ID是这样表示的ENSG00000116717。那到底我们该如何区分和认识不同数据库中的ID呢?今天,我们就带大家来看看吧~
01、Ensembl stable IDs
Ensembl stable ID的结构是根据不同物种设置的前缀,加上数据所指的类型,如基因蛋白质,再加上一系列的数字。有的时候可以有不同的版本,则在 Ensembl ID后面加上小数点和版本号。
常用物种前缀:
类型前缀:
02、UniProt
UniProt中录入的数据都被分配了一个唯一的entry name。
UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有11位包含大写字母的字符串,一般有着“X_Y”的形式,其中“X”是最多五个便于记忆的蛋白质编号,“_”是下划线,“Y”是最多五个便于记忆的物种编号。
蛋白质编号:
物种编号示例如下:
UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多16位包含大写字母的字符串,一般有着“X_Y”的形式,其中“X”是6到10个字符组成的accession number,“_”是下划线,“Y”是最多五个便于记忆的物种编号。
Accession Number
UniProtKB的Accession Number相当于数据库的主键,由6到10个大写字母或者数字组成。其构成规律为:[OPQ][0-9][A-Z0-9][0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9][0-9])。
accession number的三种类型:
如果一个条目被分成两个,或者多个条目合成一个,则有相应的accession number继承规则。
03、HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol是用来表示基因的编码,由大写字母构成,或由大写字母和数字构成,首字母均应该是字母。
如:GLA "galactosidase,alpha";GLB "galactosidase,beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1"再到UGT1A13代表了13个不同的gene symbol。
04、NCBI
GenBank Accession Number
GenBank的通用accession number通常是由一个大写字母加上5个数字的组合,或者两个大写字母加上6个数字的组合。
RefSeq Accession Number
RefSeq有一套特殊的Accesion Number。形式是:[A-Z][_][0-9],两个大写字母,一个下划线,6个或更多的数字。
05、Entrez ID
Entrez是NCBI使用的能够对众多数据库进行联合搜索的搜索引擎,其对不同的 Gene进行了编号,每个gene的编号就是entrez gene id。由于entrez id相对稳定,所以也被众多其他数据库,如KEGG等采用。Entrez Gene ID就是一系列数字,也比较容易辨识。R或网站都有众多的工具可以帮助从不同的ID转换为 entrez id或者反向转换。
06、UCSC ID
UCSC ID由小写字母和数字构成,起始均为uc,然后是三位数字,接着又是三位小写字母,最后有小数点和数字构成版本号。如:uc010qfk.3,uc010qfk.3
看完了今天的介绍,大家理解了吗?还有什么不懂的也可以和我们讨论讨论喔~
赛哲生物︱成就创业与创新梦想
领取专属 10元无门槛券
私享最新 技术干货