生物信息学初识篇——第二章:序列比对(5)

生物信息学初识篇——第一章:生物数据库

生物信息学初识篇——第二章:序列比对(1)

生物信息学初识篇——第二章:序列比对(2)

生物信息学初识篇——第二章:序列比对(3)

生物信息学初识篇——第二章:序列比对(4)

(四)、多序列比对的编辑和发布:Jalview 的介绍和操作

在 EMBL Clustal Omega 比对结果的 Result Summary 标签下有Jalview按钮。这个按钮可以快速启动 Jalview,但这里启动的在线版本功能不完整。完全版的 jalview 可以从 Jalview 官网(http://www.jalview.org)在线启动,或者下载安装到本地。

通过 Jalview 除了可以加工多序列比对,还可以针对比对中的序列做各种各样的分析、比如构建系统发生树、预测蛋白质二级结构、查看结构域家族、从 PDB 数据库中查询三级结构等。

点击 File 菜单- Input Alignment- From File - 打开我们用Clustal Omega做出并保存的多序列比对结果(clustal格式文件)。因为“.clustal”不是 Jalview 熟悉的后缀名,所以需要把文件类型改成“所有文件”才能看到它(图2.60)。

图2.60 打开多序列比对

在打开的多序列比对窗口的下方有三行柱状图(图2.61)。它们体现了比对中每个位置的保守度高低(Conservation)、比对质量高低(Score)、以及共有序列(Consensus)。从保守度行,可以很清楚的找到保守区大致的位置。共有序列指的是某一列出现频率最高的那个字母,比如第 58 列中 W 出现的频率最高,是 100%。如果某一列拥有的最

图2.61 多序列比对窗口

高出现频率的字母是两个或两个以上的话,会以“+”显示。把鼠标放在“+”上就可以看到是哪些字母出现的频率一样高。共有序列可以一定程度上体现出某个保守区域所具有的序列特征。以后如果看到和这段序列长相极其相似的序列,它很可能能跟这个保守区的功能相似。

在Colour菜单下有很多种颜色方案。能够和保守度这一行柱状图配合的颜色方案是 Percentage Identity。选了这个颜色方案之后,每一列会根据这一列的保守度用深浅不同的蓝色表示。蓝色越深说明这一列越保守,反之越不保守。再配合 Colour 菜单下的“By Conservation”参数,可以从弹出的参数设定窗口中设定保守程度达到百分之多少以上的才给赋予不同的蓝色,阈值以下的都是白色。

另一个较常用的颜色方案是 Clustal 系列配色方案。这个配色方案和 EMBL 多序列比对工具做出的结果页面里“Show Colors”之后的颜色方案是基本相同的。具体哪个氨基酸选用哪个颜色可以参见图2.62。我们从文献里看到的彩色多序列比对,大多是用的这种颜色方案。

图2.62 Clustal 系列颜色方案

除了给多序列比对上彩妆,有时还需要给它修理一下局部瑕疵,也就是对局部位置进行手动调整。比如,从前期实验我们得知,图2.63中方框所示区域的 TLR2、10、6、1 这四条序列的第 53 列应该往右挪一列,跟 TLR9、8、7 这三条序列的第 54 列对在一起。TLR2、10、6、1 这四条序列的第 53 列补空位。其他位置不动。

多序列比对的外观也很重要。默认情况下,多序列比对是单行显示的。由于序列长,需要拖动窗口拉条才能浏览全部。这样不利于查看分析,也不利于将导出的比对图片插入文献。如果想要让多序列比对根据 Jalview 窗口的宽度自动换行,可以在 Format 菜单下勾选“Wrap”。此外,还可以通过“Font…”窗口对字体格式、大小等进行调整。如果你只需要多序列比对,而不需要有关保守度等的注释行。可以关闭 View 标签下的“Show annotations”选项,以达到去掉注释行的目的。

Jalview 除了有编辑多序列比对的功能还有很多分析功能。比如,可以按照序列的名字、两两一致度或其他规则给比对中的序列重新排序以及为选中的两条序列做双序列全局比对(图2.64)、为选中的一组序列计算各种系统发生树(图2.65)、或者用在线软件为某一条序列预测二级结构(图2.66)。Web service 菜单下的所有功能都需要网络支持才能运行。

图2.63 多序列比对局部位置调整

图2.64 序列排序和双序列全局比对

2.65 计算系统发生树

图2.66 预测蛋白质二级结构

除了 Jalview,还有很多比对美化工具(图2.67)。Boxshade 擅长黑白制图。因很多学术期刊只收取彩图的编辑费,所以黑白图可以节省科研经费。ESPript 的功能十分强大。MView擅长把彩色多序列比对转换成 HTML 源代码。这样就可以将它直接插入网页,并方便以文本形式选取。

图2.67 多序列比对编辑工具列表

九、寻找保守区域

(一)、序列标识图 WebLogo

如果用一句话来描述你究竟想从多序列比对中得到什么,答案是你想要找到序列中重要的位置。说得更专业一点,就是要找到保守区域。可以借助软件来更好的寻来保守区域。

序列标识图(sequence logo)就是序列的 logo,它是以图形的方式依次绘出序列比对中各个位置上出现的残基,每个位置上残基的累积可以反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。图2.68 是用一款流行的软件 WebLogo 创建的序列标识图。

图2.68 序列标识图

要创建序列标识图,首先需要一个多序列比对。多序列比对中的一列对应序列标识图中的一个位置。然后分别计算每一列中不同残基出现的频率,再根据以下公式(图2.69)把频率转换成高度值,最后根据高度值写出不同残基的彩色字母图形。

图2.69 频率转换成高度值

如果某一列非常保守,字母高度就高。反之,如果某一列没有什么特征,各种残基都有出现,杂乱无章,那么就会看到一堆比较矮的字母摞在一起。这里再次强调,字母的高度和它在某一列中出现的频率成正比,但是并不等于频率。试想一下,如果字母高度就是频率的话,那么序列标识图中每个位置上字母摞起来的总高度应该是一样的,都是 100%。但是从图2.69 中可以看到,序列标识图上每个位置字母摞起来的总高度是不一样的,这是因为在字母高度的计算过程中涉及了熵值。某一列中字母出现的情况越混乱,熵值越大,字母越矮。字母出现的情况越有规律,熵值越小,字母越高。所以序列标识图可以很好的展现多序列比对中每一列的保守程度,即,它们是杂乱无章的,还有有规律可循的。并且把可循的规律图形化的展现出来。这就是我们为什么要给序列打上 logo 的原因。

WebLogo 是一款在线创建序列标识图的软件(http://weblogo.threeplusone.com/)

主页面上点“Create your own logos”,然后输入多序列比对(图2.70)。WebLogo 可以接受大多数常见的多序列比对格式。示例文件 promoter.fasta 是一组启动子序列的多序列比对,以 FASTA 格式存储。FASTA 格式的多序列比对要求把多序列比对中的每一条序列连同插入的空位一起按 FASTA 格式书写,写完一条序列再写下一条。这和之前讲过的 Clustal 格式不太一样。在序列输入框的下方可以设置不同参数,以定义序列标识图的样式,比如设置序列标识图的创建范围、定义字母的颜色方案等。保持所有参数默认,点“Create WebLogo”。

图2.70 WebLogo 输入页面

图2.71为创建出的序列标识图。从图中可以清晰的看到:输入的这些启动子序列上TATA-Box 的共有特征序列,以及它们出现的位置。

图2.71 WebLogo 结果页面

(二)、序列基序 MEME

MEME 是一款寻找序列基序(motif)的软件。在核酸或蛋白质序列中存在一些有特定模式的序列片段,这些片段称为序列的基序(motif)。序列的基序与生物功能密切相关。比如,发生 N 糖基化位点的基序:发生糖基化的天冬酰胺后面一定紧跟一个脯氨酸以外的氨基酸,再紧跟丝氨酸或者苏氨酸,再紧跟一个脯氨酸以外的氨基酸。这个特定模式可通过正则表达式来规范描述,也可以通过序列标识图来直观描述。基序的发现要通过大量相关序列的分析。MEME 就是一款可以自动从一组相关的核酸或蛋白质序列中发现序列基序的软件。

MEME 是 The MEME Suite 在线软件套装中的一员(http://meme-suite.org/)。MEME 的使用非常简单,只需要将待分析的序列上传即可(图2.72)。而且,上传的序列为原始序列,不需要提前为它们做多序列比对。你也可以指定返回排名前几的基序。MEME 的等待时间稍长,大约 10 分钟以上,所以最好留下邮箱。

图2.72 MEME 输入页面

Meme 的返回结果被保存成各种格式:HTML、XML、test 等。便于在线查看的是“MEMEHTML output”,即网页格式。

网页格式的 MEME 结果页面中,给出了找到的排名前三的基序(图2.72)。它们以序列标识图的形式展现出来。同时还提供这三个基序在每条序列中的大体位置。如果要进一步了解某个基序,可以点击序列标识图右侧的“More”下面的“”箭头,以查看详细(图2.73)。点击后,会得到大比例序列标识图,以及该基序在每条序列中对应的序列片段和它们出现的具体位置。此外,还可以点击序列标识图右侧的“Submit/Download”下面的“”箭头(图2.74),将某个基序提交至各种数据库,并进行针对该基序的序列相似性搜索,已找到数据库中 含有该基序的序列,进而推测该基序的功能。这步操作是通过 The MEME Suite 软件套装下的另一个软件 FIMO来实现的。

图2.72 MEME HTML 结果页面

图2.73 More 链接查看基序详情

图2.74 提交基序给FIMO进行数据库相似性搜索

(三)、PRINTS 指纹图谱数据库

目前,科学家已经对现有的蛋白质序列进行了充分的研究,而且早已发现并总结了这些序列上的重要基序。相关研究成果汇入了 PRINTS 蛋白质序列指纹图谱数据库(http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/)。所谓蛋白质的指纹是指一组保守的序列基序,用于刻画蛋白质家族的特征。这些基序由多序列比对结果获得,且它们在氨基酸序列水平上是不相邻的,但是在三维结构中可能紧密地结合在一起。PRINTS 数据库存储了目前已发现的绝大多数蛋白质家族的指纹图谱。对于一个陌生的蛋白质,只要看看它的序列是否符合某个蛋白质家族的图谱就可以对它进行分类并预测它的功能。

要浏览 PRINTS 数据库,可以输入数据库编号、关键词、或标题等以查找某一个指纹图谱。比如点击“By text”通过关键词搜索(图2.75)。输入条中输入“TRANSFERRIN”,也就是搜索转铁蛋白家族的图谱。搜索返回转铁蛋白家族的指纹图谱链接。

点击结果页面中的“TRANSFERRIN”链接后,会显示包括指纹图谱的基本信息、与其他数据库之间的交叉链接、构建指纹图谱所使用的蛋白质序列、以及指纹图谱中每个基序等具体信息(图2.76)。

点击“View alignment”链接后,可以看到创建指纹图谱所使用的多序列比对(图2.77)。

点击“View structure”链接后,网页会打开一个三维视图插件,并以该家族中某一特征蛋白质具有的三维结构为例,在线显示指纹图谱中各个基序在三维结构中的位置(图2.78)。从该三维结构图中可以看出,紫色的基序在氨基酸序列水平上并不相邻,但是在三维空间结构中是紧密联系在一起的,并形成蛋白质的重要功能区。

图2.75 关键词搜索转铁蛋白家族图谱

图2.76 TRANSFERRIN 结果页面

图2.77 View alignment 结果页面

图2.78 View structure 结果页面

除了浏览某一指纹图谱,PRINTS 还提供指纹匹配服务。也就是搜索某一序列所匹配的指纹图谱。此功能通过 PRINTS 主页也上的“FPScan”链接实现(图2.79)。注意输入的待搜索序列只能是“a raw sequence”,也就是纯序列。换言之,FASTA 格式中带大于号的第一行不能拷贝进输入框。

图2.79 FPScan 输入页面

提交后返回的结果页面中,跟输入序列匹配的指纹图谱,根据匹配得分的高低被排列出来(只列出前十名)(图2.80)。此外,还单独列出了排名前三的指纹图谱。由此可知,得分最高的是视紫红质家族的指纹图谱。

图2.80 FPScan结果页面

点击排名第一的视紫红质家族的“Graphic”链接,可以得到该家族指纹图谱中各个基序在输入序列中所匹配的位置(图2.81)。结果页面的下部还提供了视紫红质家族的 6 个基序在输入序列中所对应的具体序列片段。由此,可以推测,输入序列属于视紫红质家族,并具有该家族蛋白质的主要功能。

图2.81 视紫红质家族指纹图谱中各个基序在输入序列中所匹配的位置

原文发布于微信公众号 - BioInfoCloud(bioInfo_cloud)

原文发表时间:2019-07-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券