前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat.Commun. | 用DiffNets探究蛋白质生化性质的结构决定因素

Nat.Commun. | 用DiffNets探究蛋白质生化性质的结构决定因素

作者头像
DrugAI
发布2021-07-28 10:52:59
2750
发布2021-07-28 10:52:59
举报
文章被收录于专栏:DrugAI

审稿:李芬 编译:赖乐珊

今天给大家介绍一篇来自美国密苏里州圣路易斯市华盛顿大学生命系统科学与工程中心和该校医学院病理与免疫学系合作的文章“Deep learning the structural determinants of protein biochemical properties by comparing structural ensembles with DiffNets”。该论文使用DiffNet模型比较蛋白质的结构集合,从而学习蛋白质的生化性质的结构决定因素。

了解与比较蛋白质及其不同变种的生化特性,如活性和稳定性的结构决定因素,是生物学和医学的一大挑战。计算机模拟蛋白质的生化特性的关键一步是,用降维算法简化变种的复杂结构集;而常见的降维算法依赖于“哪个结构特征重要”的误导性假设,例如强调大的几何变化比小的几何变化更重要。本文用自监督自编码器DiffNet来避免这种假设,并学习低维表示,自动识别相关特征。例如,DiffNets自动识别微小的结构特征,预测β-内酰胺酶变种的相对稳定性和肌球蛋白异构体的占空比(一种结构决定因素)。

1

背景

蛋白质序列如何确定其结构和最终的生化特性机制,推动对于此的理解对于蛋白质工程等领域来说至关重要。随着时间的推移,蛋白质序列发生进化,出现了整个具有广泛功能和不同生化特性的蛋白质家族;所以不妨从鉴定蛋白质变种之间的结构和动力学差异着手;此外,简化这一过程也可以加速对新发现变种的理解。

要确定决定蛋白质变种之间生化差异的结构特征,需要找到蛋白质的整个结构集(蛋白质的不同构象/状态)。晶体学和冷冻电镜可以揭示一些大的蛋白质结构差异,但无法解释很多情况下的差异。分子动力学模拟可以比较结构集,但由于蛋白质有数千个自由度,这使得它们有大量不同的构型。此外,两个结构集可能高度重叠,需要识别两个集合中存在的结构特征的概率差异,而不是简单地识别只存在于一个集合中的特征。

降维算法在处理庞大的构象集合中起着至关重要的作用。但目前的算法的实用性都受到假设不够普遍的限制。例如,主成分分析(PCA)假设大的结构变化比细微的结构变化更重要,而这种假设在很多蛋白质结构的降维中都无效。比如在酶中,一个大环的任意运动带来的影响可能远远不及活性位点中功能相关的侧链的微小运动。本文探索了监督学习和降维算法相结合的思想。

2

方法与结果

DiffNet架构

如图1,与标准的自动编码器一样,DiffNet连接编码器和解码器网络,分别压缩和重建输入数据。本文示例中,输入是来自模拟帧的蛋白质XYZ坐标(C、CA、N、CB),这些坐标经过白化以进行规格化。首先,编码器网络对输入进行变换,以逐步降低输入的维数,使其成为瓶颈层(称为潜在空间);然后,潜在空间向量被用作解码器网络的输入,该解码器网络试图重构原始输入。DiffNets(和自动编码器)用随机矩阵乘法进行初始化,并且通过迭代地调整矩阵值(权重)来改进网络。具体地说,对权重进行训练以最小化一个损失函数,该损失函数评价模型的输入和输出之间的差异,称为输入重建误差。最终,如果DiffNet(或自动编码器)能够高精度地压缩并重构原始输入,就意味着低维潜在空间向量保留了描述输入的特征。

拆分结构与分类任务

DiffNets在自动编码器的基础上,增加一个衡量潜空间向量在分类(classification)任务上表现准确性的损失函数(图1右),该分类可以用户自定义,例如,蛋白质结构来自野生型或突变体。分类任务重新组织了潜在的空间,从而强调重要的结构特征。DiffNets的分离体系结构将感兴趣的蛋白质区域输入到编码器执行分类任务,本身编码器的潜在空间连接到解码器的输入,这样就引导DiffNet在感兴趣的区域中进行搜索,以找出变种之间的微小差异。

如图2,左图是紧密的螺旋9,右图是更舒展的螺旋9,螺旋9的紧密化是区分更稳定的突变种(如M182T)和不稳定的突变种的结构特征。而他们之间的差别仅在于有无更强的氢键,所以两个状态的变化相对附近的大环变化来说是微小的,本文的DiffNet将学习分类这些状态。

为评估DiffNet分类层是否以一种有助于识别两类数据之间差异的方式改变了潜在空间,本文在一个数据集上进行了训练,并将DiffNet的潜在空间与无监督自动编码器的潜在空间进行了比较,该数据集包括在在螺旋9的紧密性上有细微区别的两类数据(来自野生型和M182T突变型)。如图1, DiffNet除了重建蛋白质结构外,还将螺旋9分类为紧密型或舒展型。

对DiffNets要求在降维的同时执行分类任务。自动编码器和DiffNets都可以压缩并重建蛋白质结构(见图3)。

DiffNet和无监督自编码器的对比如图4,将分类组件添加到DiffNets学习任务中会得到潜在表示,它能比无监督自编码器更清楚地分隔不同的数据集。这一结果表明,将分类组件添加到学习任务提供了一种强大的方法来学习低维表示,该表示突出了数据集之间的关键差异。

自监督的DiffNets学习与蛋白质稳定性相关的结构特征

EM是一种在无法观测的隐藏变量的概率模型中,寻找参数最大似然估计或者最大后验估计的算法。该算法在最大化步骤和期望步骤之间迭代交替,以识别自洽的标签集。在最大化步骤中,训练DiffNet来预测每个结构的当前标签。期望步骤通过使用DiffNet的输出计算标签的期望值来精炼训练标签,条件是约束我们期望的来自每个变种的结构的部分与感兴趣的性质相关联。最终,期望的结果是期望最大化算法重新分配。因为训练标签是由算法学习的,所以是自监督的。训练了两个有监督的自动编码器(一个有EM,一个没有EM),并比较了输出分类标签的分布。实验结果如图5,自监督提高了DiffNet根据其生化特性组织结构构型的能力。

为了自动化DiffNet的解释,本文使用从所有模拟中计算出的2000个簇中心测量了突变1 nm内的所有原子间距离,然后测量了每个距离与DiffNet输出标签之间的线性相关性。令人鼓舞的是,距离相关性强烈地表明紧密螺旋9是稳定变种的一个重要特征(图6)。表明DiffNets可以学习复杂的特征,并帮助自动化识别区分蛋白质变种的生化相关结构特征的过程。

DiffNets适用于其他蛋白质和更多不同的序列

为了探索DiffNets的普适性,本文还训练了一个自监督的DiffNet来识别结构特征,以从低效能肌球蛋白结构域中区分高效能肌球蛋白马达域。肌球蛋白有非常多样化的功能。为了发挥肌肉收缩和细胞内运输等不同的作用,肌球蛋白精确地调整了它们的占空比。活性位点P-环的构象集成通过核苷酸有利和不利状态的平衡来编码占空比。图7 表现了DiffNets捕捉到P环运动在区分高占空和低占空肌球蛋白马达蛋白中的重要性;与未进行EM训练的模型比较,得到EM改善了模型的性能。

参考资料

Ward, M. D., Zimmerman, M. I., Meller, A., Chung, M., Swamidass, S. J., & Bowman, G. R. (2021). Deep learning the structural determinants of protein biochemical properties by comparing structural ensembles with DiffNets. Nature Communications, 12(1), 1–12.

https://doi.org/10.1038/s41467-021-23246-1

代码

https://github.com/bowman-lab/diffnets

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档