前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学习抗体高变异性的语言

学习抗体高变异性的语言

作者头像
DrugAI
发布2023-09-19 14:29:35
1210
发布2023-09-19 14:29:35
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Bryan Bryson和Bonnie Berger团队的一篇关于语言模型在抗体上应用的论文。基于机器学习的蛋白质语言模型(Protein Language Models,PLMs)在预测蛋白质结构和功能方面取得了显著的成功。然而,通用的“基础”PLMs在预测抗体方面的性能有限,这是因为抗体的高变异性区域不符合模型所依赖的进化保守原则。在此项研究中,作者提出了一种新的迁移学习框架,称为AbMAP,它通过对抗体序列输入进行精细调优,以抗体结构和结合特异性示例为监督,对基础模型进行微调。

在现代治疗中,抗体一直是最有希望的药物候选物之一。这种治疗成功得益于抗体的显著结构多样性,使其能够识别极其广泛的潜在靶点。这种多样性源于其高变异性区域,这些区域对于抗体的功能特异性至关重要。对目标感兴趣的抗体的实验设计通常通过免疫化或噬菌体展示筛选等定向进化技术来进行。然而,生成和筛选过程缓慢且昂贵。它也无法系统地探索可能的结构空间,可能导致具有亚优结合特性的候选物。此外,下游考虑因素(如可开发性或特定功能工程)难以轻易实现。因此,需要计算方法能够从头设计适用于给定靶点的新抗体,或更高效地优化一小组实验确定的候选物。通用的蛋白质结构预测技术(如AlphaFold 2)在预测抗体结构方面存在困难,因为后者的高变异性区域(也称为互补决定区,CDR)显示出进化上新颖的结构模式。一个方向是对整个抗体或其CDR进行三维结构建模,但这些方法的准确性有限。而且速度较慢,每个抗体(或CDR)结构需要很长时间,因此无法进行大规模的计算探索或分析个体的抗体库,后者可能包含数百万个序列。

最近,自然语言处理中使用的机器学习技术已被应用于生成高维蛋白质表示。蛋白质语言模型(PLMs)隐含地捕捉了结构特征,并且能够进行蛋白质属性预测。在抗体领域,一种方法是简单地使用在所有蛋白质语料库上训练的PLMs。作者将其称为“基础”PLMs。然而,抗体的CDRs明确违反了基础PLMs基于分布假设的假设:CDRs中的序列变异性并没有受到进化的限制。事实上,缺乏高质量的多序列比对(MSAs)也是AlphaFold 2在抗体上表现不如常规蛋白质的关键原因之一。因此,另一组方法被提出:这些方法仅在抗体和B细胞受体序列库上训练PLMs。虽然这些方法更好地解决了CDRs的高变异性问题,但它们的缺点是没有在所有蛋白质序列的多样化语料库上进行训练,因此无法利用基础PLMs提供的丰富见解。此外,现有方法如AntiBERTa也将宝贵的解释能力用于对抗体的非CDRs进行建模,而这些非CDRs的多样性较低且对抗体的结合特异性的重要性较小。最后,这两种方法都没有利用PDB中超过6700个抗体的3D结构信息。因此,作者认为更有效的方法是结合这两种方法的优势。作者提出了一种迁移学习的方法,从基础PLM开始,通过在抗体特定语料库上进行训练,以提高对高变异性区域的准确性。

作者提出了AbMAP(Antibody Mutagenesis-Augmented Processing),这是一个可扩展的迁移学习框架,适用于任何基础PLM,并可以更准确地预测抗体的结构和关键生化特性。作者的主要突破在于通过监督学习方法来解决基础PLMs在抗体高变异区域上的局限性,该方法是基于抗体结构和结合特异性数据进行训练的。具体而言,作者引入了三个关键的改进:a)通过将学习任务仅集中在抗体高变异区域上,最大限度地利用可用数据;b)采用对比增强方法来改进基线PLM的高变异区域特征,以更好地捕捉抗体的结构和功能;c)采用多任务监督学习的形式,将抗体蛋白质结构和结合特异性考虑在内,对表示进行监督。在这里,对比增强方法旨在聚焦于基础PLM特征中与抗体最相关的子空间。考虑基础PLM中来自CDR残基的特征,它捕捉了有关残基及其整体上下文的信息。然而,这个上下文是从所有蛋白质的语料库中学习到的,而抗体CDR中的高变异性意味着不同的分布上下文。因此,作者通过在原始序列的CDR中进行体外突变来生成新的序列,并获得这些突变体的基础PLM特征。

模型概述

图 1

对于给定的抗体序列,作者从基础PLM生成的特征开始,并通过AbMAP进行改进。改进过程包括三个主要步骤:CDR边界的确定,基础PLM特征的增强以聚焦于CDR,以及基于注意力机制的特征微调,以更好地捕捉抗体的结构和功能。首先,作者使用ANARC的隐马尔可夫模型方法来确定CDR的边界。作者使用Chothia编号,该编号利用了抗体结构的众所周知的规范模式来高度可信地识别CDR。接下来,作者采用一种称为“对比增强”的过程:通过随机将CDR残基替换为另一种氨基酸,在CDR中进行体外突变,并为每个突变体生成基础PLM特征。然后计算增强特征,即原始序列特征与突变体特征平均值之间的差异。作者的增强旨在减去特征中与CDR不对应的子空间,并通过对比突变替代物突出特定氨基酸对特征的贡献,类似于掩蔽语言建模的方式。然后,使用具有单个Transformer层的连体神经网络架构来优化这个增强的特征,该网络以成对的抗体序列作为输入。图1b概述了AbMAP架构。作者希望获得每个抗体的最终表示,其中欧氏距离能够捕捉结构和功能信息。为此,作者采用了多任务学习的形式,要求特征能够捕捉结构相似性和功能相似性。此外,每个任务的固定长度特征都经过L2归一化,并使用最大熵形式进行正则化。

AbMAP有效地对抗体特征进行微调

图 2

作者首先评估了方法改进和微调方法的有效性。在从AbMAP的训练或验证集中随机选择的785个具有可用结构的抗体中,作者生成了10,000个随机配对,并评估了成对的结构相似性与表示相似性之间的相关性。作者选择评估整个Fv的结构相似性,而不仅仅是CDR片段,因为作者认为这对于验证CDR特定的驱动因素是Fv结构整体变异的主要决定因素的假设是更严格的测试。作者评估了基础蛋白质语言模型和作者改进方案的每个步骤的表示:a)用于整个蛋白质的基础PLM表示,b)仅用于CDR的基础PLM表示,c)在CDR上进行对比增强,d)还包括监督的Transformer层(对于a-c进行残基平均)。对于每个表示,作者将抗体配对分成20个余弦相似性的组,并在每个组中计算配对之间结构相似性的TM分数分布。作者评估了特征-结构之间的关系在一致性(通过在各个组中平均TM分数和余弦相似性之间的Spearman等级相关性来衡量)以及区分能力(通过第一个和最后一个组之间的TM分数差来衡量)。在图2中展示了AbMAP-B在重链抗体上的结果。虽然基础蛋白质语言模型本身非常强大,但其一致性有些有限,特别是在表示相似性较低的配对中。CDR特定的特征和对比增强改善了一致性(Spearman相关性从0.94增加到0.98),而最终的监督层对于实现较强的区分能力至关重要,第一个和最后一个组之间的TM分数差增加了375%。因此,应用CDR特定的表示,对其进行对比增强,并在监督设置中进行微调可以更全面、准确地突出抗体的结构特征,而不仅仅是原始的整个蛋白质PLM表示。

抗体结构预测

表 1

作者将结构预测视为AbMAP中的模板匹配任务:在抗体模板数据库中搜索与查询抗体在结构上最相似的样本。作者从AbMAP训练期间的SAbDab结构集构建了模板数据库;重复使用这些样本使作者能够对SABDab中剩余的结构进行评估。作者首先应用CD-HIT去除具有大于70%序列相似性的模板条目。使用固定长度的AbMAP表示,通过欧氏距离获得与查询特征最接近的k个(这里k = 10)模板。这k个表示的中位数被报告为匹配的模板。选择中位数而不是最接近的模板可以在查询和模板之间的特征质量变化时提供一定的稳健性。除了基础PLM外,我们还将AbMAP与DeepAb、OmegaFold和AlphaFold进行了比较。为了量化预测结构与真实结构之间的相似性,作者计算了预测结构与真实Fv结构之间的TM分数和RMSD(均方根偏差)。总体而言,正如表1所示,AbMAP能够在结构预测中实现高准确性。与各自的基础PLM相比,对应的每个AbMAP变体的性能都显著提高。总体而言,AbMAP-B的性能优于其他变体,可能是因为底层基础模型同时在序列和结构上进行训练。值得注意的是,AbMAP在广泛的专门结构预测方法上也有所改进。

突变变异预测

图 3

计算机辅助的抗体建模在低频率抗体设计和优化中具有关键应用。这项任务的目标是从一小组训练集的抗体中,计算性地推断出组合突变对一组广泛的抗体候选者的影响,并利用结果指导下一轮的实验验证。基于PLM的计算性突变可以在加快抗体类治疗的设计和开发过程中发挥重要作用。作者评估了AbMAP在预测m396突变体与SARS-CoV-2的结合效力方面的泛化性能。m396的原始野生型变种针对SARS-CoV-1刺突蛋白的受体结合域(RBD)。作者试图在仅使用0.5%的示例进行训练后预测这些突变体的ddG分数。随后评估了两种预测架构:i) 使用AbMAP的可变长度特征作为输入,经过一个变压器层,然后是一个两层前馈网络(对残基进行平均),ii) 使用AbMAP的固定长度特征作为输入,进行岭回归。评估了AbMAP基于预测的整体准确性以及其复现顶级真实结果的能力。对于整体分析,作者计算了预测得分和真实得分之间的Spearman秩相关系数,并对这些相关系数进行了平均,涵盖了五个能量函数类别。如图3a所示,仅使用20%的示例(即训练/测试拆分比例为0.2),AbMAP-E和AbMAP-P的表示均实现了0.94的Spearman秩相关系数,表明AbMAP能够有效地从有限的训练集中进行泛化,从而减少了实验和计算开销。相比之下,原始的PLMs的性能明显较差。实际上,对于最大的训练集大小(按照0.2拆分),低维度的one-hot编码的性能优于基础PLMs。

表位预测

表 2

对于表位预测,作者使用了AbMAP的每个残基的可变长度表示,并指定了一个简单的架构:一个单独的Transformer层,后跟两个线性层。使用相同的架构进行了ProtBert的预测。值得注意的是,ProtBert模型具有更多的参数,因为ProtBert的特征维度(1024)是AbMAP的四倍大(256)。作者计算了每个残基的结果,并在表2中报告了总体统计数据。AbMAP-B在每个残基的表位预测中实现了最高的整体准确性。虽然ProtBert的准确性与AbMAP相似,但由于较大的特征维度,它使用了更多的模型参数。

结论

作者提出了AbMAP,这是一个迁移学习框架,用于将任何基于蛋白质序列的基础性PLM(通常依赖于进化保守性)适应于抗体。框架通过基于突变的对比增强来改进原始的PLM特征。为了进一步塑造增强的特征,作者对其非线性投影进行监督,将其投影到一个较低维空间,以便在投影空间中欧氏距离更好地捕捉抗体的结构(来自PDB)和功能相似性。为了最大限度地利用有限的抗体结构数据,AbMAP将其容量集中在互补决定区域(CDRs)及其周围的残基上,这些区域是决定抗体特异性的关键因素。

参考资料

Learning the Language of Antibody Hypervariability. Rohit Singh, Chiho Im, Taylor Sorenson, Yu Qiu, Maria Wendt, Yves Fomekong Nanfack, Bryan Bryson, Bonnie Berger. bioRxiv 2023.04.26.538476.

https://doi.org/10.1101/2023.04.26.538476

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-04 09:56,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档