生物信息学初识篇——第一章:生物数据库

生物数据库首先分成三大类。核酸数据库,蛋白质数据库和专用数据库。核酸数据库顾名思义,是与核酸相关的数据库。蛋白质数据库是与蛋白质相关的数据库。专用数据库是专门针对某一主题的数据库,或者是综合性的数据库,以及无法归入其他两类的数据库。

核酸数据库和蛋白质数据库又分为一级和二级。一级数据库存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列,或者 X 射线衍射法等获得的蛋白质三维结构。一级核酸数据库,他主要包括三大核酸数据库和基因组数据库。

蛋白质的一级数据库还可以再具体分为蛋白质序列数据库和蛋白质结构数据库。二级数据库是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。

一.文献数据库PubMed

PubMed是拥有超过两百六十万生物医学文献的数据库。这些文献来源于 MEDLINE,也就是生物医学文献数据库、生命科学领域学术杂志以及在线的专业书籍。他们大部分提供全文链接。

PUBMED 搜索结果页面,在显示内容格式这个下拉菜单里,除了总结,摘要,还有个叫 MEDLINE 的项目。你可以把它简单的理解为数据库中文献记录的内部结构。比如 TI 代表题目,AB 代表摘要,AU 代表作者。比如搜索 Down 这个词。我们在 Down 的后面加上空格,中括号 AU(Down [AU]),就会返回所有作者名里有 Down 这个词的文献。如果加上[TI],则返回题目中有 Down 的文献。中括号 AD 是搜索发表单位。如果什么限制都没有,只写 Down 的话是在任意地方搜索。另外,PubMed 还有几点要说明的。在搜索时,可以使用引号,引号里的词会被当作一个整体来看待,而不会被拆开;可以使用逻辑词AND、OR 、NOT。比如你可以规定,题目里有 dUPTase,并且题目里有 bacteria,但是作者里不要有 Smith(dUTPase [TI] AND bacteria [TI] NOT Smith [AU])。每篇文章都有自己唯一的 PubMed ID(PMID)。通过这个号,可以直接找到某一篇文章。最后,不得不说的是,有的时候 PubMed 也帮不了你。比如,搜索 1995 年以前的文献中排名十位以后的作者是白费力气。搜索 1976 年以前的文献是没有摘要的。搜索 1965 年以前的文献,就别想了。

二. 一级核酸数据库

三大核酸数据库包括NCBI 的 Genbank,EMBL 的 ENA 和DDBJ,它们共同构成国际核酸序列数据库。

NCBI隶属于美国国立卫生研究院 NIH;

欧洲核苷酸序列数据集 ENA 由欧洲分子生物学研究室 EMBL 开发并负责维护。

亚洲的核酸数据库 DDBJ由位于日本静冈的日本国立遗传学研究所 NIG 开发并负责维护。

Genbank,EMBL 与 DDBJ共同构成国际核酸序列数据库合作联盟 INSDC。

(一)GenBank 原核生物核酸序列

从 NCBI 的主页(http://www.ncbi.nlm.nih.gov/)选择Genbank 数据库。Nucleotide数据库就是 Genbank 数据库。以一条原核生物的 DNA 序列为例解读序列信息。这个序列是编码大肠杆菌 dUTPase 的基因,在Genbank 里的数据库编号是 X01714。搜索结果解释说明:

LOCUS 这一行里包括基因座的名字,核酸序列长度,分子的类别,拓扑类型,原核生物的基因拓扑类型都是线性的,最后是更新日期。

DEFINITION 是这条序列的简短定义,也就是前面看到的标题。

ACCESSION 就是在搜索条中输入的那个数据库编号,也叫做检索号,每条记录的检索号在数据库中是唯一且不变的。即使数据提交者改变了数据内容,Accession 也不会变。你会发现,这条记录里,Accession 和 Locus 是一样的。这是因为这个基因在录入数据库之前并没有起名字,因此录入数据的时候便将检索号作为了基因的名字。但是有些基因,在录入数据库之前已经有了自己的名字,那么这些基因所对应的 Accession 和 Locus 就不一样了。

Version 版本号和 Locus,Accession 长得差不多。版本号的格式是“检索号点上一个数字”。主要用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如果某条序列发生了改变,即使是单碱基的改变,它的版本号都将增加,而它的 Accession 也就是检索号保持不变。比如,版本号由 U12345.1 变为 U12345.2,而检索号依然是 U12345。版本号后面还有个 GI 号。GI 号与前面的版本号系统是平行运行的。当一条序列改变后,它将被赋予一个新的 GI 号,同时它的版本号将增加。

KEYWORDS 提供能够大致描述该条目的几个关键词,可用于数据库搜索。

SOURCE 基因序列所属物种的俗名。他下面还有一个子条目ORGANISM,是对所属物种更详细的定义,包括他的科学分类。

REFERENCE 是基因序列来源的科学文献。有时一条基因序列的不同片段可能来源于不同的文献,那样的话,就会有很多个 REFERENCE 条目出现。REFERENCE 的子条目包括文献的作者、题目和刊物。刊物下面还包括 PubMed ID 作为其子条目。

COMMENT 是自由撰写的内容,比如致谢,或者是无法归入前面几项的内容。

FEATURES 是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含很多子条目,比如来源,启动子,核糖体结合位点等等。

source 说明了核酸序列的来源,据此可以容易的分辨出这条序列是来源于克隆载体还是基因组。可以看到,当前序列来源于大肠杆菌的基因组 DNA。

promoter 列出了启动子的位置。细菌有两个启动子区,-35 区和-10 区。-35 区位于第286 个碱基到第 291 个碱基 ,-10 区位于第 310 个碱基到第 316 个碱基。

misc_feature 列出了一些杂项,比如,这条说明了从第 322 个碱基到第 324 个碱基是一个推测的,但无实验证实的转录起始位置。

RBS 是核糖体结合位点的位置。

CDS:Coding Segment,编码区。对于原核生物来讲,CDS 记录了一个开放阅读框,从第 343 个碱基开始的起始密码子 ATG 到第 798 个碱基结束的结束密码子 TAA。除了位置信息,还包括翻译产物的诸多信息。翻译产物蛋白的名字是 dUTPase,这个编码区编码该蛋白的第 1 到第 151 个氨基酸。翻译的起始位置和翻译所使用的密码本,以及计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列。需要强调的是,这不是生物自然翻译的,而是计算机翻译的。事实上,蛋白质数据库中的大多数蛋白质序列都是根据核酸序列由计算机根据翻译密码本自动翻译出来的。中间部分是翻译出的蛋白在各种蛋白质数据库中对应的检索号。通过这些检索号可以轻松的链接到其他数据库。

ORIGIN 作为最后一个条目记录的是核酸序列,并以双斜线作为整条记录的结束符。至此整条记录就浏览完了。

(二)GenBank 真核生物核酸序列 mRNA

真核生物的基因与原核生物不同,是非线性排列的,也就是基因里有外显子和内含子。因此真核生物核酸序列的数据库记录要要比原核生物复杂。

我们以编码人 dUTPase的成熟 mRNA 序列为例。成熟 mRNA 是已经剪切掉内含子,只剩外显子的序列,所以这条成熟mRNA 序列和我们之前看到的原核生物的 DNA 序列从拓扑结构上看是几乎一样的,都是线性的。输入这条成熟 mRNA 序列的检索号 U90223,搜索。

打开数据库记录,基本的注释内容和原核生物的差不多,这里只挑两点特别的地方说一下。大家看到 KEYWORDS 后面只有一个点。这个点提示我们,数据库并不是完美的,所有数据库都存在数据不完整的问题。再有,JOURNAL 后面我们看到是写的是未正式发表。但事实上,这篇文章早在 1997 年就已经发表在 JBC 上了。因此,忠言逆耳:别指望 Genbank或任何一个数据库能够百分百做到数据无误且实时更新。

Features 里的注释内容与原核生物的数据库记录相似,CDS 指出了从 63 到 821 是一段编码区,在这段编码区里基因是连续的,因为是经过剪切后的成熟 mRNA,它将被翻译成线粒体型 dUTPase 蛋白。下面/translation 里给出的是计算机翻译出的该蛋白的序列。

在 Features 里还有两个新的条目之前没有见到过。sig_peptide 和 mat_peptide。sig_peptide,也就是 signal peptide,指出了编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位,也就是蛋白质工作的地方。mat_peptide,也就是 mature peptide,指出了编码成熟肽链的碱基的位置。

基因组里的 DNA 序列,是非线性分布的基因序列。我们仍然浏览编码人的 dUTPase 的dut 基因序列。输入检索号 AF018430,搜索!

(三)基因组数据库 Ensemble

人的基因组有 33 亿个碱基分布在23 个染色体上。

从 Ensembl 数据库(http://www.ensembl.org)查看人的基因组。Ensembl 是由欧洲生物信息学研究所 EBI 和英国桑格研究院合作开发的。它收入了各种动物的基因组,特别是那些离我们人类近的脊椎动物的基因组。这些基因组的注释都是通过配套开发的软件自动添加的。Ensembl 主页左下角有人,老鼠,斑马鱼这三个点击率最高的基因组的快速链接。

点击Human进入之后,我们点这个查看染色体,就可以看到人的所有染色体的图例

前面一直研究的那个编码 dUPTase 的 dut 基因就在 15 号染色体上。点一下 15 号染色体,在弹出窗口中选择染色体概要(chromosome summary)。这时我们会得到 15 号染色体的一个一览图。里面包括编码蛋白的基因、非编码基因、假基因分别在染色体上不同区段内的含量,以及 GC百分比(红线),和卫星 DNA 百分比(黑线)。染色体统计表给出了 15 号染色体的长度,以及各种类型的基因的个数。

从 Genbank 我们了解到,dut 基因的第三号外显子位于 15 号染色体的长臂条带 21.1 附近。所以我们进一步进入这个条带看一下。点击条带 21.1,选择区间链接。这时,这个区间内所有的基因就都被显示在一张图上。

在以 dut 基因为中心显示的放大图谱中,点击 dut 或者对应的区域,在弹出的概况窗口中选择 Ensemble 数据库的检索号。之后就会出现 dut 基因在 Ensemble 数据库中的详细记录。

(四)微生物宏基因组数据库 JCVI

微生物宏基因组数据库是非常有用的一级核酸数据库资源。说到微生物宏基因组学,不得不介绍的是美国基因组研究所 TIGR 和克莱格反特研究所 JCVI。美国基因组研究所致力于微生物基因组的研究,也有部分植物基因组项目。TIGR 是NCBI 基因组资源的有力补充,因为它不仅拥有已完成测序的基因组,还有那些测序中的基因组信息。在植物基因组项目中可以找到拟南芥、玉米、苜蓿和柳树的基因组信息。在微生物与环境基因组目中,特别值得关注的是“人类微生物组计划”,HMP。

从 JCVI 主页(http://www.jcvi.org/)的统计表中我们可以看到不同器官中有多少微生物基因组已被测序并被注释。点击下方的统计链接。可以得到 HMP 中已研究的所有微生物基因组。这些微生物在人体中存在的位置,测序及注释是已完成还是在进行中。已完成的基因组后面会有三个链接:

WGS 是全基因组鸟枪法测序项目数据库记录的链接。SRA 是高通量测序数据库记录的链接。这两个链接里记录的是测序的信息。相比之下对大家更为有意义的是ANNOTATION 链接里的内容,他列出了某个基因组在 Genbank 中所有注释的链接。比如微生物 Acinetobacter radioresistens SK82 的基因组共分成 82 条序列记录在 Genbank 数据库中。

三. 二级核酸数据库

二级核酸数据库包括的内容非常多。其中 NCBI 下属的三个数据库经常会用到。他们是RefSeq 数据库,dbEST 数据库和 Gene 数据库。RefSeq 数据库,也叫参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。凡是叫ref 什么的数据库都是非冗余数据库,就是已经帮你把重复的内容去除掉了。dbEST 数据库,也就是表达序列标签数据库,存储的是不同物种的表达序列标签。Gene 数据库以基因为记录对象为用户提供基因序列注释和检索服务,收录了来自 5300 多个物种的 430 万条基因记录。

此外,非编码 RNA 数据库,提供非编码 RNA 的序列和功能信息。非编码 RNA 不编码蛋白质但在细胞中起调节作用。目前该数据库包含来源于 99 种细菌,古细菌和真核生物的3 万多条序列。microRNA 数据库主要存放已发表的 microRNA 序列和注释。这个数据库可以分析 microRNA 在基因组中的定位和挖掘 microRNA 序列间的关系。

RefSeq

https://www.ncbi.nlm.nih.gov/refseq/

dbEST

https://www.ncbi.nlm.nih.gov/dbEST/

Gene

https://www.ncbi.nlm.nih.gov/gene

ncRNA

http://biobases.ibch.poznan.pl/ncRNA

microRNA

http://www.mirbase.org/

四、一级蛋白质序列数据库

蛋白质数据库的种类比核酸数据库要多,但它的注释要比核酸数据库直白得多。像核酸数据库一样,蛋白质数据库也分为一级和二级。一级蛋白质数据库又分为蛋白质序列数据库和蛋白质结构数据库。这两种数据库里存放的都是通过实验方法直接获得的基础数据。而二级蛋白质数据库都是在一级数据库的基础上分析加工出来的。一级蛋白质序列数据库包含三大蛋白质序列数据库,Swiss-Prot、TrEMBL 和 PIR,这三个数据库共同构成UniProt数据库。

Swiss-Prot 是一个人工注释的蛋白质序列数据库。它拥有注释可信度高,冗余度小的优点。它是由欧洲生物信息学研究所 EBI 与瑞士生物信息学研究所 SIB 共同管理的。

TrEMBL也是 EBI 和 SIB 共同管理的一个数据库,他与 Swiss-Prot 的区别是:TrEMBL 里的蛋白质序列注释是由计算机完成的,它包含了 EMBL 核酸序列数据库中为蛋白质编码的核酸序列的所有翻译产物。换言之,TrEMBL 是通过计算机,把核酸序列数据库里能编码蛋白的核酸序列都翻译成了蛋白质序列,然后把这些计算机翻译出来的蛋白质序列存入其中。TrEMBL 把已经包含在 Swiss-Prot 数据库中的序列剔除掉了。也就是在 Swiss-Prot 里已经有人工注释的蛋白质序列在 TrEMBL 里就不再出现了。

PIR 数据库是蛋白质信息资源数据库,他设在美国 Georgetown 大学医学中心。是一个支持基因组学,蛋白质组学和系统生物学研究的综合公共生物信息学资源。

(一)、UniProt 数据库介绍

UniProt 数据库有三个层次。

第一层叫 UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。

第二层是 UniRef,他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。

第三层是 UniProtKB,他有详细注释并与其他数据库有链接,分为 UniProtKB 下的 Swiss-Prot和 UniProtKB 下的 TrEMBL 数据库。

关系稍有点复杂,但实际上我们最常用的就是 UniProtKB下的 Swiss-Prot 数据库。

从 UniProt 数据库查看一条蛋白质序列(http://www.uniprot.org/)。在UniProt数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到,TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。统计表里清楚的写着:TrEMBL 是自动注释的,没有经过检查,而 Swiss-Prot 是人工注释的,并且经过检查。

UniProt 数据库的首页上也有一个搜索条,选择UniprotKB 数据库,然后输入“human dutpase”,第一条就是我们要的。Entry 这一列是蛋白质序列在 UniProtKB 数据库中的检索号,Entry_Name 是检索名,检索号与检索名平行运行,都是一条序列在数据库中的唯一标识,两者作用相同,只是写法不同。从检索名可以更直观的知道是哪个物种的什么蛋白质。从加星文档图标(Entry_Name后一列)我们可以获知序列是被人工检查过的还是没有。也就是说,有加星文档图标的是 Swiss-Prot 中的数据,没有的是 TrEMBL 里的。后面这几列,依次是蛋白质的名字,编码这一蛋白质的基因的名字,所属物种以及序列长度。点击第一条序列的检索号,打开这条数据库记录。

UniProtKB 中的数据库记录分成几个部分,左侧是注释标签,点击其中某一个标签可以直接跳转到该部分注释。上方是工具标签,可以用于和其他序列进行比较,格式转换,存储等。工具标签下方是这条蛋白质序列的基本信息,蛋白质的名字,基因的名字,所属物种,以及状态。这里有加星文档图标,是被人工检查过的,应该属于 Swiss-Prot 数据库。注释打分 5 星,说明注释得很全面,并且这些注释在蛋白质水平上有实验依据。

Function:功能这部分注释很详细的说明了这个蛋白质的功能。从这里可以得知dUTPase 是一种在核酸代谢过程中的酶、它的催化反应方程式、它的辅助因子、它参与的代谢途径等。每条注释信息都提供出处来源,让你有据可查。

Names & Taxomomy:给出了蛋白质的各种名字,包括全称、缩写以及别名。还列出了所属物种以及该物种的分类学谱系等。

Subcellular location:提供蛋白质亚细胞定位(subcellular localization)的信息。目前,研究亚细胞定位的数据来源基本都是Swiss-Prot 数据库。

Pathology & Biotechnology:提供蛋白质突变或缺失导致的疾病及表型信息。

PTM/Processing:提供蛋白质翻译后修饰或翻译后加工的相关信息。

Expression:提供了基因在 mRNA 水平上的表达信息,或者在细胞中蛋白质水平上的表达信息,或者在不同器官组织中的表达信息。

Interaction:提供了蛋白质之间相互作用的信息。包括 UniProtKB 中直接与这个蛋白质有两两相互作用的蛋白质序列的链接,以及这个蛋白质在各种蛋白质相互作用数据库或蛋白质网络数据库中涉及的数据库记录链接。

Structure:提供蛋白质二级结构和三级结构信息。只有那些已通过实验方法测定三级结构并且已提交到蛋白质结构数据库 PDB 的蛋白质才有结构注释。二级结构以图形拓扑的形式呈现。三级结构列出了该蛋白质在蛋白质结构数据库 PDB 中涉及的数据库记录链接。这些结构经常只对应蛋白质的部分序列。

Family & Domains:提供蛋白质家族及结构域信息。

Sequence:提供蛋白质氨基酸序列信息。含有多个异构体的蛋白质会显示多条序列。

Cross-references:列出了所有通往其他含有该蛋白质信息的数据库的链接。

Publications:列出了有关这个蛋白质已发表的所有文献的信息。

Entry information:提供有关这条数据库记录的录入信息,外加一个免责声明。

Miscellaneous:杂项,包含任何无法归入前几项的内容。

Similar Proteins:在 UniRef 数据库里找到与该蛋白质在序列水平上相似的其他蛋白质,并按相似度高低分组。

五、一级蛋白质结构数据库

蛋白质结构数据库 PDB(http://www.rcsb.org )是全世界唯一存储生物大分子3D 结构的数据库,这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物,只有通过实验方法获得的 3D 结构才会被收入其中。

在 PDB 网站的搜索条中输入 “3H6X”,也就是把作者的名字和蛋白质的名字同时输入搜索条,然后点 go。

PDB 数据库的检索号,俗称 PDB ID,是由字母和数字组成的四位编号。一个结构对应一个 PDB ID,而不是一个蛋白质对应一个 PDB ID,因为同一个蛋白质在 PDB 数据库中可以有很多个结构。他们可以是不同作者提交的,也可以是一个蛋白的不同结构形态。网页上的信息都是关于这个结构的基本描述以及解析结构所用的实验参数。真正的结构信息要从Download files 里面下载。结构信息存储在 PDB 格式的一个纯文本文件里,这种文件叫做 PDB文件。PDB 文件都是以 PDB ID 命名,以“.PDB”为后缀,可以用记事本打开。

PDB 文件和我们GenBank 以及 UniProtKB 的纯文本数据库记录差不多。也是每行有条目索引词,后面是具体内容。我们通过浏览 3H6X 的 PDB 文件,看看这样的文本记录如何呈现 3D 结构。

第一部分:头信息

HEADER:蛋白质结构的基本信息描述,包括分子类别,存储日期,PDB ID

TITLE:结构的标题

COMPND:对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成的三聚体结构。

SOURCE:结构中所包括的每一个分子的实验来源。

KEYWDS:用于数据库搜索的关键词

EXPDTA:测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测定的,少数是核磁共振法,极少数是使用包括电子显微镜在内的其他方法测定的。

AUTHOR:作者信息

REVDAT:历史上曾经对该数据库记录进行过的修改。

JRNL:发表结构的文献信息。

REMARK:无法归入其他部分的注释。

第二部分:一级结构信息(也就是氨基酸序列) DBREF:该蛋白质在蛋白质序列数据库里的检索号等信息。 SEQRES:氨基酸序列。 MODRES:对标准残基上的修饰,比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。 第三部分:非标准残基信息 HET:非标准残基及位置。 HETNAM:非标准残基的化学名称。 FORMUL:非标准残基的化学式。 第四部分:二级结构信息 HELIX:位于螺旋结构上的氨基酸所在位置及所属链。

SHEET:位于折片结构上的氨基酸所在位置及所属链。

TURN:位于转角结构上的氨基酸所在位置及所属链。

Link:残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学

键是肽键!键长 1.32 埃。除了肽键还可能有氢键,二硫键等等。

第五部分:实验参数信息

CRYST1:晶胞参数。

ORIGXn:直角-PDB 坐标。

SCALE*:直角部分结晶学坐标。

第六部分:3D 坐标信息

ATOM:PDB 文件中最重要的,也是篇幅最长的就是 3D 坐标部分。每一行是一个原子。包括原子号,原子名,这个原子所在氨基酸的名字,属于哪条分子链以及所在氨基酸的编号。后面这三个数就是这个原子在三维空间里的坐标,X 轴 Y 轴和 Z 轴。通过这个 3D 坐标,蛋白质的每一个氨基酸上的每一个原子都能找到自己的空间位置。所有原子按照各自的空间位置站好,就构成了整个蛋白质的空间结构。至此,我们终于知道了 PDB 是如何存储 3D 结构了。它存储的实际上是原子的 3D 坐标。

CONECT:原子间化学键连接信息。 MASTER:版权拥有者信息。 END:结束符。

PDB 数据库就提供这样一个在线的可视化软件,叫 JSmol。JSmol 基于 JAVA 开发,所以需要先安装 java 运行环境。JAVA 可以到 JAVA官网下载。安装好 JAVA 后,重启浏览器,打开这个网页,点 JSmol 链接,之后,接受 java,信任 java,运行 java。(如果 IE 浏览器打开 JSmol 有问题,可以尝试 360 等其他浏览器)。网页加载完成之后,页面上会出现一个图片。这个图片貌似是当前这个蛋白质的结构图。

按照 JSMOL 的操作规则,按住鼠标左键拖拽是旋转结构,鼠标中键可以放大缩小,右键可以打开 JSmol 菜单,进行更多操作。通过设置右边的参数,可以改变 3D 结构的显示方式。在线版本的 JSmol 可以方便快捷的查看结构,但是功能不够全,特别是缺少分析功能。在后续的文章中,我将为你详细讲解功能更为强大的 3D 可视化软件的使用,并且在这一章里还将涉及 PDB 数据库的更多内容。

六、二级蛋白质结构数据库

(一)、结构域家族数据库 Pfam

Pfam 数据库(http://pfam.xfam.org/)是一个蛋白质结构域家族的集合,包括了一万六千多个蛋白质家族。以Toll 样受体蛋白为例解读搜索结果。Pfam 主页上的搜索工具可以帮助我们查找某条序列上有哪些结构域。

这是一条 Toll 样受体蛋白的序列,序列如下:MMSASRLAGTLIPAMAFLSCVRPESWEPCVEVVPNITYQCMELNFYKIPDNLPFSTKNLDLSFNPLRHLGSYSFFSFPELQVLDLSRCEIQTIEDGAYQSLSHLSTLILTGNPIQSLALGAFSGLSSLQKLVAVETNLASLENFPIGHLKTLKELNVAHNLIQSFKLPEYFSNLTNLEHLDLSSNKIQSIYCTDLRVLHQMPLLNLSLDLSLNPMNFIQPGAFKEIRLHKLTLRNNFDSLNVMKTCIQGLAGLEVHRLVLGEFRNEGNLEKFDKSALEGLCNLTIEEFRLAYLDYYLDDIIDLFNCLTNVSSFSLVSVTIERVKDFSYNFGWQHLELVNCKFGQFPTLKLKSLKRLTFTSNKGGNAFSEVDLPSLEFLDLSRNGLSFKGCCSQSDFGTTSLKYLDLSFNGVITMSSNFLGLEQLEHLDFQHSNLKQMSEFSVFLSLRNLIYLDISHTHTRVAFNGIFNGLSSLEVLKMAGNSFQENFLPDIFTELRNLTFLDLSQCQLEQLSPTAFNSLSSLQVLNMSHNNFFSLDTFPYKCLNSLQVLDYSLNHIMTSKKQELQHFPSSLAFLNLTQNDFACTCEHQSFLQWIKDQRQLLVEVERMECATPSDKQGMPVLSLNITCQMNKTIIGVSVLSVLVVSVVAVLVYKFYFHLMLLAGCIKYGRGENIYDAFVIYSSQDEDWVRNELVKNLEEGVPPFQLCLHYRDFIPGVAIAANIIHEGFHKSRKVIVVVSQHFIQSRWCIFEYEIAQTWQFLSSRAGIIFIVLQKVEKTLLRQQVELYRLLSRNTYLEWEDSVLGRHIFWRRLRKALLDGKSWNPEGTVGTGCNWQEATSI

搜索结果显示,一共找到 4 个区域匹配 Pfam 数据库中已记录的结构域。前三个是 Toll 样受体蛋白胞外域典型的重复序列片段。最后一个是 TIR 结构域,以TIR 结构域为例查看详细信息如下:

Summary 里可以获得这个结构域的功能注释以及结构信息。

Domain Organization 里可以看到目前有多少蛋白质拥有 TIR 结构域,以及 TIR 结构域和其他结构域之间的组合搭配关系。

Structure 会列出目前所有包含 TIR 结构域的蛋白质结构,以及他们在序列数据库UniProt 和结构数据库 PDB 中的链接。同时,也提供 JSmol 在线结构查看工具。

(二)结构分类数据库 CATH

根据结构域的空间特征可以对结构域进行分类。CATH 和 SCOP 是两个重要的蛋白质结构分类数据库。CATH 数据库(http://www.cathdb.info/)由伦敦大学 1993 年创建。CATH这个数据库的名字 C、A、T、H 是数据库中四种结构分类层次的首字母。也就是,所有蛋白质结构域在 CATH 中被首先分成 4 种 CLASS,这就是 C。四种 CLASS 分别是全α型,全β型, α +β型,低二级结构型。每一个 Class 中的结构域又被具体分为不同的 architecture,也就是 A。A 这一层是按照螺旋和折叠所形成的超二级结构排列方式分类的。比如α +β这个 class 下的结构可以进一步分为桶状的,三明治状的,还有滚轴状等 Architecture。每种 Architecture 里的结构域,又可以根据二级结构的形状和二级结构间的联系更进一步分为不同的 topology,也就是T。最后再通过序列比较以及结构比较确定同源性分类,划分出不同的 homologous superfamily,也就是 H。这样每个结构从粗到细,即从 A 到 H,会有四个层次的分类。注意结构分类是以结构域为单位进行的,而不是针对整个蛋白。所以 PDB 中的一个蛋白质结构可能对应 CATH中多个结构域分类。CATH 在分类时既使用计算机程序,也进行人工检查。

此外,CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。

搜索条输入 3H6X,这是之前在 PDB 数据库里查看过的 dUTPase的结构。结果显示 dUTPase 蛋白的结构分类代码是 2.70.40.10。CATH 为每一层的每一种结构分类命名,并用数字代号代表这一分类。因此每个结构域会具有一个分类代码。第一个数字是 C 这一层的分类代码,第 2 个数字是 A 这一层的分类代码,第 3 个数字是 T 这一层的分类代码,第 4 个数字是 H 这一层的分类代码。

这里,CATH 把所有拥有 2.70.40.10结构分类的结构域,根据他们的序列相似度不同,进行了聚类。不同深浅的圈代表不同的序列相似度。通过这张图,我们可以了解到具有相同结构分类的蛋白质他们在序列水平上的亲缘关系远近(下图左)。

此外,CATH 还从 2.70.40.10 这个结构分类里挑出了 19 个有代表性的结构域,并且把他们的 3D 结构叠加在了一起。从这个图上(上图右),我们可以看到这个结构分类的总体特征以及差异产生的位置。

(三)、结构分类数据库 SCOP2

SCOP 数据库与 CATH 类似,也属于蛋白质结构分类数据库,但 SCOP 的分类原则更多考虑蛋白质间的进化关系,而且分类主要依赖于人工验证。和 CATH 一样,SCOP 的结构分类也基于四个层次。第一层也叫 Class,也是基于二级结构成分分类。Class 之下是 Fold,主要考虑结构的空间几何关系。再往下是 Superfamily,基于远源的蛋白质进化关系分类。最后是 Family,基于近源的蛋白质进化关系分类。注意 SCOP 和 CATH 里面都有提到 Superfamily这个词,但两者的含义并不相同。CATH 里 Superfamily 是指的从 C 到 A 到 T 再到 H 这样四层的一个精细结构分类。而 Scop 中,Superfamily 是结构分类的第三个层次的名称。目前,SCOP 已升级为 SCOP2(http://scop2.mrc-lmb.cam.ac.uk)

SCOP2 的主页上也有搜索条,可以查看某一个 PDB 结构的结构分类。

搜索结果中的第 2 到第 5 条,就是该蛋白质结构的四层分类。第一层 Class,第二层 Fold,第三层 Superfamily,第四层 Family。第一层 Class 之上是 SCOP 数据库的根。第 4 层 family 之下是这个蛋白质的名字,再往下是所属物种。虽然从这个谱系上看有 7 个层次,但实际上真正的结构分类只有中间四层。

七、专项数据库

(一)、京东基因与基因组百科全书 KEGG

KEGG,全称京东基因与基因组百科全书(http://www.genome.jp/kegg)。它是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库。由多个子库构成。

这些子库中,KEGGPATHWAY 数据库包含了大量物种的代谢与生物信号传导通路信息。Pathway 数据库下又分为 7 个部分:1)Metabolism,2)Genetic Information Processing,3)Environmental Information Processing,4)Cellular Processes,5)Organismal Systems,6)Human Diseases,7)Drug Development。其中 Metabolism 代谢通路这部分,又具体分为几个专题:1)Global/overview,2)Carbohydrate,3)Energy,4)Lipid,5)Nucleotide,6)Amino acid,7)Other amino,8)Glycan,9)Cofactor/vitamin,10)Terpenoid/PK,11)Other secondary metabolite,12)Xenobiotics,13)Chemical structure。

选择KEGG PATHEAY,然后选择Metabolism下的Global/overview,最后选择01100这个选项

这是会看到一个像电路板的图,其中有一个圈这个圈的名字是 TCA 循环,也就是三羧酸循环。这个图上的每一个圆点儿代表一个化合物,把鼠标放在某一个点上,会出现化合物的分子式,点击可进入相应数据库查看详细。

图上的每一条线代表一个生化反应。把鼠标放到三羧酸循环的名字上,可以看到一个更加详细的通路图,我们点击这个名字。得到三羧酸循环详细的通路图,其中圆圈是化合物,箭头代表反应及反映方向。方块中的是酶。虚箭头指向其他途径,中间过程省略没有列出。当点击某一个酶的时候会直接进入 KO 数据库。KO 是 KEGG 中的一个“专有名词”,表示蛋白质或者说酶的一个分类体系。序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上一个 KO 标签。从对应的 KO 数据库记录中可以查看当前这个酶。

接下来我们看一下 Toll 样受体的信号传导通路。它位于 KEGG Pathway 数据库里的Organismal Systems 部分的 Immune system 专题里。人的各种 Toll 样受体信号传导通路图如下。

可以看到在细胞膜和内质网上,有很多种 Toll 样受体。它们识别了不同的入侵物后,激活下游蛋白,一个接一个的传递信号,直至产生各种细胞因子,激发炎性反应。如果点击其中的 Toll 样受体 4,可以看到这个蛋白质的详细信息,包括它参与的各种 Pathway。此外,还有该蛋白可引发的疾病信息,并且可以链接到 KEGG 人类疾病数据库。此外,数据库记录里还提供了两个相关的 Drug,其中一个 Drug 叫 Eritoran。它是 Toll 样受体 4 的拮抗剂。因为它长得和 Toll 样受体 4 的激动剂 LPS 脂多糖很像,所以可以被 Toll 样受体 4 捕获。但是因为它又比激动剂 LPS 少了两条链,所以 Toll 样受体 4 捕获它之后不能激活下游的信号传导,从而使 Toll 样受体 4 丧失免疫功能。这种药可以用于 Toll 样受体 4 引发的自身免疫疾病的治疗。

(二)、人类孟德尔遗传在线 OMIM

一个有关人类遗传病的数据库,人类孟德尔遗传。它是一个将遗传病分类并链接到相关人类基因组中的数据库。它的在线版本是人类孟德尔遗传在线 OMIM。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。从NCBI 的OMIM子库页面点击Getting Started进入数据库(http://www.ncbi.nlm.nih.gov/omim),或者直接从OMIM主页进入(http://www.omim.org/)。

以阿尔茨海默症(AD)为例,在搜索条中输入:alzheimer disease。搜索结果里排在第一位的就是我们想要的。点击进入后数据库给出了与 AD 相关的致病基因,如下图。

包括他们在染色体中的位置,所引发表型的数据库编号,以及基因的数据库编号等。此外,页面上还提供大量的文字信息。如果我们点击某一个染色体定位的话。会出现这个位置附近基因的列表,以及引发的各种疾病。点击某一基因的数据库编号,可以查看这个基因的详细信息。

原文发布于微信公众号 - BioInfoCloud(bioInfo_cloud)

原文发表时间:2019-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券