前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测

Nat. Commun.| 使用自回归生成模型进行蛋白质设计和变体预测

作者头像
DrugAI
发布2021-05-24 15:10:48
1K0
发布2021-05-24 15:10:48
举报
文章被收录于专栏:DrugAIDrugAI

作者 | 涂心琪 审稿 | 李梓盟

今天给大家介绍哈佛大学Andrew C. Kruse教授团队在Nature Communications上发表的一篇文章“Protein design and variant prediction using autoregressive generative models”。在该文章中,作者开发了一种新的自回归生成模型,用于预测和设计蛋白质功能序列,并且无需序列比对。实验结果表明,该模型能够很好地预测错义突变,序列片段的插入和缺失,并且能够泛化到超出了预测和设计范围的序列空间域。

研究背景

目前,设计和生成具有已知功能的生物分子是生物技术和生物医学的主要目标,抗体设计是蛋白质序列统计建模领域的一个非常具有挑战性的问题。研究人员往往通过设计最佳起始文库来发现新型纳米抗体,但大型的合成文库包含相当一部分非功能性蛋白质,给鉴定高亲和力抗体带来了阻碍。为此,作者提出构建可用于开发高度特异性且可能具有治疗作用的纳米体智能文库,利用天然序列中的信息来了解特定位置氨基酸的限制,捕获它对其它位置氨基酸的依赖性,再通过生成模型产生大量包含有关促成稳定功能蛋白丰富信息的序列变体。现有的天然蛋白序列生成模型依赖于序列家族比对,基于比对的方法本质上不适合统计学描述抗体序列的变长和高互补性决定区。为此,作者开发了一种新的自回归生成模型,旨在捕获可变长度序列集的关键统计特性;该模型不需要比对,而是通过自回归似然来实现上下文相关的预测和生成,适合于建模和设计抗体的互补性决定区。

结果

生物序列的自回归生成模型

在生物体中观察到的蛋白质序列是在几天到几亿年时间范围内由功能性折叠蛋白质的突变和选择产生的。生成模型可以参数化这种进化观,通过进化产生某一序列的概率被表示为

,其中参数

捕获了功能序列必不可少的约束条件(图1)。作者提出的自回归模型可以使用序列之前的所有氨基酸来预测序列中的某个特定位置的氨基酸,通过自回归似然将概率分布

沿着序列分解为先前元素的条件概率的乘积。该模型的任务是在给定序列中某个位置之前的氨基酸的情况下,预测序列中该位置的氨基酸。模型的因果结构允许对一组序列进行有效训练,推断变异效应以及对新序列进行采样。该模型的自回归性质消除了对结构比对的需要,并能够应用到建模和设计具有挑战性的蛋白质序列。

图1 自回归模型学习基因型-表型图

预测序列的表型效应

该实验旨在验证新模型生成设计蛋白质序列的能力。首先,作者通过突变效应预测的准确性来测试新模型捕获位置之间相关性的能力。与通过实验测得的突变效应的大型数据集相比,仅在进化序列上训练的无监督生成模型被证明是最准确的,既可以预测突变效应,又可以避免在有监督的方法存在的过拟合风险。之后,作者根据深层突变扫描实验对模型预测能力进行基准测试,与在相同序列比对中训练的最新模型的Spearman的秩相关性进行比较。实验结果如图2所示,自回归模型的表现与仅具有位点独立项的模型和EVmutation模型的表现一致,甚至更好,并且与 DeepSequence的最新结果相当。

图2 自回归模型预测突变效应

构建功能性纳米抗体库

体外筛选大型、高通量的抗体和纳米抗体文库变得越来越普遍,因为它可以快速鉴定出多种靶向目标抗原的单克隆抗体。然而,这些合成文库包含很大一部分的非功能性纳米抗体序列,会根据不利的生化特性选择天然纳米抗体序列。作者通过将自回归模型与来自七个不同美洲驼的免疫谱的一组(约120万个)纳米抗体序列进行拟合,学习能够表征功能纳米抗体的限制条件,然后根据学习到的顺序约束,一次生成一个氨基酸,最终获得了约370万个序列。从这些序列中选择185,836个高度多样化的CDR3序列组成纳米抗体文库。作者将他们设计的文库与最新的合成文库进行了比较,实验结果表明该文库包含的CDR3序列具有与原始美洲驼免疫组库相似的生化特性分布(图3a)。设计的文库中的序列是多种多样的,它们比自然库中的序列彼此更远(图3b),同时保持与组合合成库的等效样本几乎相同的多样性。另外,作者将探索序列空间的新区域,因为在设计的库中生成的序列不同于纯天然库(图3c)。

图3 抗体库的生化特性分布

总结

该文章中,作者展示了如何在不依赖序列比对的情况下,使用神经网络驱动的自回归生成模型对序列约束进行建模,并为以前无法实现的应用(如纳米抗体)设计新颖的功能序列。另外,作者还使用自回归生成模型设计了一个智能、多样且高效的纳米抗体序列文库,用于针对目标抗原的实验性筛选。作者设计的精简文库可以快速且高效地发现候选纳米抗体,并迅速提供亲和力成熟的起点,以增强结合亲和力。作者提出的模型是第一个不依赖序列比对的方法,可在没有实验性数据的情况下表现出先进的突变效应预测性能,并大规模应用于蛋白质序列的设计。最后,作者指出随着可用序列数量的增加以及计算能力和新的机器学习算法的出现,自回归序列模型也许能够帮助研究人员探索目前无法访问的序列空间。

数据和代码

https://github.com/debbiemarkslab/SeqDesign

https://doi.org/10.5281/zenodo.4606785

参考资料

Shin, JE., Riesselman, A.J., Kollasch, A.W. et al. Protein design and variant prediction using autoregressive generative models. Nat Commun 12, 2403 (2021).

https://doi.org/10.1038/s41467-021-22732-w

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档