前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Patterns | 使用天然配对数据改进抗体语言模型

Patterns | 使用天然配对数据改进抗体语言模型

作者头像
DrugAI
发布2024-05-13 10:41:59
880
发布2024-05-13 10:41:59
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Bryan Briney团队的一篇论文。抗体语言模型是利用大规模机器学习技术,特别是自监督学习方法来理解和预测抗体序列的特性和功能的计算模型。这些模型通过分析抗体的氨基酸序列,尝试学习抗体序列数据中的模式和关联,类似于自然语言处理技术在文本数据上的应用。本研究通过使用成对和随机的抗体序列数据训练语言模型,发现使用成对数据训练的模型能够学习到抗体的重要特征,在多种性能指标上表现得更好。

人体的抗体库极其丰富,包含高达1018种独特抗体,远超地球上所有物种的蛋白质总数。这些抗体通过B细胞的体细胞基因重组形成,涉及不同基因片段的组合。在这项研究中,作者为了探究使用成对数据相比未配对数据能否显著提高模型性能,使用最近发布的约160万组成对抗体序列数据来训练抗体特异性语言模型(AbLMs)。研究团队开发了三种基线抗体语言模型(BALM)变体:BALM-paired(使用成对序列)、BALM-shuffled(使用随机配对序列)、BALM-unpaired(使用未配对序列)。BALM-paired在多个性能指标上表现显著优于其他两个模型,在三个抗体特异性分类任务上也展示了比未配对模型更优的性能。通过这些发现,研究揭示了使用成对抗体序列数据训练AbLMs在理解和预测抗体特性方面的巨大潜力。

模型架构

BALM-paired、BALM-shuffled和BALM-unpaired使用了略微修改过的RoBERTa-large架构。采用仅编码器的架构,以便生成有用的序列嵌入,这些嵌入可用于下游任务,如特异性分类,并与现有的蛋白质和抗体语言模型(LMs)对齐。在模型训练时,唯一使用编解码器训练的显著例外是ProtT5。模型使用掩码语言模型(MLM)目标在相同的Jaffe数据集上进行训练,该数据集包含1,335,854对抗体序列。BALM-paired在原始的自然配对序列上进行训练,BALM-shuffled在随机配对的重链和轻链序列上进行训练,而BALM-unpaired在分开的重链和轻链上进行训练(每个输入只有一个链)。为了使模型间的训练均衡,BALM-unpaired的批量大小为512,是BALM-paired和BALM-shuffled的两倍,后两者的批量大小为256。

优先学习生发中心抗体特征

图 1

为了评估BALM-paired,在此分别分析了变异或未变异序列的逐位置交叉熵损失(CEL)(图1)。通过将序列位置分组到相应的框架区(FR)或互补决定区(CDR),作者观察到在未变异序列的非模板CDR3中模型性能明显较弱。此外,在包含遍布整个序列的非模板体细胞突变的变异抗体序列的所有区域中,作者也观察到模型性能略有下降。抗体突变在CDR中聚集,与相对突变较少的FR相比,BALM-paired在变异序列的CDR中的表现明显较差。

配对数据优先改善轻链

图 2

使用一个包含20,000对自然配对抗体序列的测试数据集,作者分析了BALM-paired、BALM-shuffled和BALM-unpaired的输出嵌入。如之前描述,从最终的Transformer层平均了输入长度维度的嵌入,并计算了均匀流形近似和投影(UMAP)表示。由于BALM-paired和BALM-shuffled的输出嵌入包括重链和轻链,所以提取了只包含单一链(重链或轻链)的嵌入子集,然后在长度维度上进行平均。这使得能够直接比较成对模型和BALM-unpaired产生的嵌入。BALM-paired、BALM-shuffled和BALM-unpaired的重链嵌入聚类,主要按突变分组,次要按V基因分组(图2A-2F)。然而,这些模型的轻链嵌入表现出相当不同的聚类(图2G-2L)。尽管BALM-unpaired的变异轻链序列形成了较为明确的V基因聚类,未变异轻链嵌入基本上是随机分散的(图2K和2L)。与BALM-shuffled观察到的模式相同,未变异轻链嵌入看似也是随机分散的(图2I和2J)。相比之下,BALM-paired产生的聚类轻链嵌入与重链相似,主要按突变分组,次要按V基因分组(图2G和2H)。鉴于这种轻链聚类的改进只出现在BALM-paired中,而不是BALM-shuffled中,这表明BALM-paired正在学习只存在于自然配对序列中的交叉链特征,这些特征优先改善了轻链嵌入。

成对模型学习跨链特征

图 3

接下来,作者进一步深入研究BALM-paired学习跨越两条抗体链的特征的能力。从测试数据集中,作者选择了所有包含至少在每条重链和轻链上有3个突变的序列对。所有突变的重链位置都被掩盖,然后请求BALM-paired预测掩盖的残基,当重链与(1)自然配对的轻链,或(2)一个生发中心回归版本的轻链配对时,后者所有突变的轻链残基都回归到生发中心(图3A)。作为比较,也要求BALM-unpaired预测同样掩盖的残基,但仅给出未配对的重链序列。因为只有突变位置被掩盖,预测生发中心编码的残基总是不正确的。对于BALM-paired,作者注意到当掩盖的重链与天然(突变的)轻链配对时,交叉熵损失(CEL)大幅减少(图3B),表明天然配对通过跨链学习提高了模型性能。BALM-paired认为正确的(突变的)残基在与天然轻链配对时的可能性提高了约4倍(6.7对1.7),并且在与天然(突变的)轻链配对时,考虑不正确但非生发中心的残基的可能性大约提高了两倍(16.7对8.9),表明模型正在学习体细胞突变的模式,而不是记忆特定的突变(图3C)。

在实验中,轻链突变被掩盖并与天然或生发中心回归的重链配对的结果(图3D和3E)更加引人注目:天然配对将正确的(突变的)残基的可能性提高了超过6倍(7.3对1.1)并且在任何非生发中心残基的可能性几乎提高了5倍(11.9对3.1)。为了验证是天然配对,而不仅仅是训练期间任何配对链的存在,是导致BALM-paired性能提高的原因,作者使用BALM-shuffled进行了同样的实验。当突变掩盖的序列与突变的或生发中心回归的伴侣链配对时,BALM-shuffled的表现与BALM-unpaired无异,证明了BALM-paired学习到的特征确实特定于自然配对的抗体序列。

学到的跨链特征与免疫学相关

图 4

对于在自然配对抗体上训练的两个模型(ft-ESM和BALM-paired),观察到CDRs中的跨链注意力更高,其中ft-ESM对CDRs的注意力是FRs的2.05倍,而BALM-paired则是1.44倍(图4A)。BALM-unpaired和base-ESM对CDRs和FRs的跨链注意力大致相等。值得注意的是,BALM-shuffled的跨链注意力模式与未配对模型相匹配,再次证明是自然配对,而不仅仅是训练期间任何随机配对链的存在,推动了模型性能的提升。对CDRs的增加跨链注意力在免疫学上是相关的,因为抗体重链和轻链的CDRs在结构上是邻近的,并且负责抗体功能。尽管每个CDRs都比FRs得到了更多的注意力,但重链CDR3作为受关注最高的区域脱颖而出(图4B)。这再次在免疫学上是相关的,因为重链CDR3是抗体区域中最多样的,并且通常位于重链和轻链可变区的接口处。作者还使用base-ESM和ft-ESM模型评估了几种临床批准的治疗性单克隆抗体(mAbs)的跨链注意力。作者再次观察到ft-ESM将其跨链注意力集中在CDRs上(图4C),特别是重链CDR3。将模型注意力叠加到Masavibart结构上,揭示了在重链和轻链邻近区域的增强注意力(图4D)。相比之下,base-ESM将增强的注意力指向重链末端和轻链开始处的残基(图4E的左下角),表明跨链注意力集中在线性输入序列中邻近的残基上,而非结构上或免疫学上相关的残基(图4F)。

自然配对提高特异性分类性能

图 5

为了展示这些自然配对模型的应用,对带有序列分类头的模型进行微调,以执行3个独立的抗体特异性分类任务。第一个任务,训练了大约20,000对配对抗体(每个类大约10,000个),是将针对几个健康捐献者的记忆B细胞库中随机选取的抗体与CoV特异性抗体进行二分类。ft-ESM在所有指标中表现最好,紧随其后的是BALM-paired和BALM-shuffled。base-ESM和BALM-unpaired的性能不如其配对的对应模型。之前报道的未配对AbLM,AntiBERTy,也包括在内进行比较,看起来其性能略优于BALM-unpaired(图5A)。第二个任务,在一个较小的大约2,000对配对抗体(每个类别1,000个)的数据集上将流感特异性和CoV特异性抗体进行二分类。在这个任务中,作者观察到与第一个二分类任务类似的结果,配对模型的表现优于未配对模型,甚至BALM-paired在几个指标上超过了ft-ESM(图5B)。BALM-shuffled没有学习到与BALM-paired或ft-ESM相同的免疫学相关跨链特征,性能也得到了提升,这表明模型已经熟悉了预训练中的配对输入序列格式。配对模型学习分类任务的速度远快于未配对模型(图5D和5E),表明与配对序列的初始微调改善了模型适应特异性分类任务的能力。最终的特异性分类任务训练了大约3,000抗体(每类1,000个),是对流感特异性、CoV特异性和随机选取的健康捐献者抗体进行多类分类(图5C)。这是最具挑战性的分类任务,作者再次观察到ft-ESM和BALM-paired的表现优于那些没有使用自然配对抗体预训练的等效模型(BALM-unpaired和base-ESM)。BALM-shuffled相对于二分类任务的表现有所下降,表明随着下游任务难度的增加,使用自然配对序列进行预训练的好处变得更加明显。

编译 | 于洲

审稿 | 王建民

参考资料

Burbach S M, Briney B. Improving antibody language models with native pairing.

DOI:https://doi.org/10.1016/j.patter.2024.100967

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档