前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生命可以用更少的氨基酸编码蛋白质吗?

生命可以用更少的氨基酸编码蛋白质吗?

作者头像
生信菜鸟团
发布2020-07-02 11:28:55
7550
发布2020-07-02 11:28:55
举报
文章被收录于专栏:生信菜鸟团

蛋白质是生命活动的主要承担者,生命进化最终都会体现在蛋白质功能的多样化上。蛋白质是由20种氨基酸编码的,相比于ATGC的DNA遗传编码信息,氨基酸字母表显示出极大地复杂性和多样性。

这就产生了一系列非常有趣的问题:

生命为什么会选择20种氨基酸作为标准字母表?

更少的氨基酸能否组成或满足一个蛋白质执行功能的基本组成单元?

我们能否用更少的氨基酸创造出摆脱当前遗传法则,设计更为独特的生命?

氨基酸约化

理论上,具有相似性质、原子排列或频率分布的天然氨基酸可以被合并,并用更小数量的约化字母表来表示编码的氨基酸,这个过程就叫氨基酸约化。

最简单的约化方案是以极性或者亲疏水性作为标准,将20种氨基酸只约化为两个字母,最终会得到两个字母组成的约化氨基酸字母表。

当然,这种极端的方法产生的蛋白质,所能承载的信息实在太少,几乎不可能完成复杂的生命活动。那如果是3个,5个,10个呢?

比如,我们使用氨基酸在不同蛋白质二级结构中的偏好性来约化20种氨基酸构成的蛋白质字母表。下图中的蛋白质,通过氨基酸约化分析,它的三维结构与二级结构有极高的匹配度。这就揭示了一些蛋白质是甚至可以用很少的氨基酸来编码。

基于这个理论,我们可以设计出更有意思的蛋白质。

氨基酸约化 Motif

在这之前,我们需要知道什么是Motif,这是研究蛋白质的关键知识点。Motif 序列是一类蛋白质共有的一段氨基酸序列,也就是说这个 Motif 序列是这类蛋白质所共享的。比如,常见的是转录因子的结合位点,蛋白质的结合位点等等。

氨基酸字母表的大小直接决定motif序列的复杂性和多样性。但是,传统的 Motif Logo 包括了20种氨基酸字母,显示出极大地复杂性。由于在一般的 Logo 生成过程中缺少对氨基酸性质等生物学因素的考虑,往往会导致对蛋白质功能进化保守性的评估出现偏差,引入冗余信息掩盖关键氨基酸序列信息。

利用氨基酸约化分析的多种方案,去应用到 motif 的可视化中就可以很好的解决以上问题。更重要的是,基于约化氨基酸的信息学 Motif logo 包含有更多的信息学和生物学意义,能更好的反映了蛋白序列的功能保守性。

总的来说,约化氨基酸的 Motif logo 作为蛋白质序列保守度的可视化图形,对研究同源蛋白质的系统发育和功能差异,以及蛋白质定向分子设计具有非常重要的意义。

构建 RaacLogo

我们可以通过在线工具 RaacLogo 可以完成约化 Motif 的构建,网址:http://bioinfor.imu.edu.cn/raaclogo

该工具包含了40多种聚类算法和74种约化后的氨基酸字母,这些字母被提取生成673个约化的氨基酸簇(RAACs),用于简化复杂的logo字母。

我们拿溶菌酶C(Lysozyme C,LYC)来获取约化氨基酸 Motif。这种酶具有溶菌作用,而且从鸡到人无处不在。

0. 准备工作

首先收集从鸡到人的21个溶菌酶C比对序列(网站默认提供该比对序列)。这一步操作和构建进化树的序列比对类似。

1. 输入序列

2. 选择一个氨基酸约化方案

3. 点击 Submit 提交任务

4. 我们选择其中一个方案

5. 生成 RaacLogo

结果有三个,分别对应着原生氨基酸Motif,通过颜色和字母显示约化 Motif,通过颜色显示约化 Motif。

可以通过右上角的导出相应的PNG,PDF,SVG文件。

也可以导入 AI 或 PS 进一步美化。

经过 RaacLogo 处理的 Motif 会非常整洁和简单,可以反映出高度的序列同源性。

可以看到,尽管LYC的氨基酸编码在从鸡到人的进化过程中发生了很大的变化,但我们可以看到,LYC的整体氨基酸特性在约化后仍保持不变,并且LYC的同源功能得以维持。

基于氨基酸约化提取特征

除了以上的应用外,可以基于氨基酸约化理论来做目前如火如荼的机器学习。

我们都知道,做机器学习最关键的步骤就是特征提取。通过约化氨基酸来做特征提取,不仅可以减少过拟合的机会,而且会极大地降低计算维度,去除冗余信息。从而利用这些特征来做蛋白质的分类,预测以及其他的应用。

1. 进入网站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

选择 Analysis

2. 输入整理好的数据集

比如,预测是否为分泌蛋白质,就需要整理好分泌蛋白的数据集与非分泌蛋白的数据集。以 Fasta 的格式导入输入框。

3. 选择约化方案

4. 选择参数提交,得到结果

参数的介绍可以点击在线工具的Help 查看

结果会得到约化后的序列,以及序列的可视化。

5. 我们的特征在Download

6. 训练蛋白质分类器

如果你熟悉机器学习,利用这个序列特征就可以着手做蛋白质分类器了

但是,不熟悉也没关系,RaacBook 也提供了自动化的流程,可以在线完成蛋白质分类器的训练。

基于氨基酸约化训练模型

1. 进入网站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

选择 Machine learning

2. 提供两个数据集

这两个数据集,可以是任意两种蛋白质序列。比如,和之前一样去预测是否为分泌蛋白质,就需要整理好分泌蛋白的数据集与非分泌蛋白的两个数据集,然后以 Fasta 的格式上传。

3. 选择参数

K-tuple:也叫K-mer,也就是说K个氨基酸作为一个整体做特征

Type:也就是分类方案

Method:机器学习方法,有KNN,SVM,RF,目前该工具正在更新更多的方法

4. 提交,等结果

会得到训练的ROC曲线,这个结果的好坏取决于之前选择的参数和数据集。

5. 下载训练结果

6. 拿到模型就可以去预测未知的序列

利用上面的模型可以构建在线网站去预测未知蛋白质序列。

目前,该在线工具正在增加一个模块:自动构建蛋白质预测器网站。也就是说,用户可以在拿到模型后就可以拥有一个自己的蛋白质预测网站。

下面,我们拿一个已经构建好的预测器网站来看看,比如防御素蛋白的预测器

http://bioinfor.imu.edu.cn/idpf

输入一段序列,我们去预测蛋白质

可以看到,这几段序列会有不同的打分值,如果一个标签的占比高,就意味着这段序列极有可能是这个标签。比如,Psd1 这段序列就是植物中的一种防御素蛋白。

自动训练模型

机器学习中模型训练会消耗大量的硬件资源和时间,因此现在该团队正在开发可以在本地运行的工具。可以实现以上的全部功能,并以 Python 包的形式发布,敬请期待。先看看目前进度的部分内容:

模型训练结果评估

筛选最优特征

ROC评估信息

高维特征缩减和可视化

总的来说,蛋白质氨基酸约化分析是对生命进化本质的探索,对于蛋白质合成、拓扑结构预测,功能预测分类以及药物设计等具有重要的意义。

如果对氨基酸约化研究方向感兴趣可以联系

左永春教授 :yczuo@imu.edu.cn

郑磊博士:baimoc@163.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档