前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AntiBERTy-抗体预训练模型

AntiBERTy-抗体预训练模型

作者头像
DrugAI
发布2021-12-29 15:54:04
7570
发布2021-12-29 15:54:04
举报
文章被收录于专栏:DrugAIDrugAI

参考: Ruffolo J A, Gray J J, Sulam J. Deciphering antibody affinity maturation with language models and weakly supervised learning[J]. arXiv preprint arXiv:2112.07782, 2021. 作者:吴炜坤

在测序信息爆发的时代,使用自然语言模型进行自监督式学习蛋白序列通用/富集特征已经有了许多的工作,比如ESV-1b、MSA-Transformer等等。这些模型可以被用于预测蛋白突变、或作为蛋白结构预测的embedding输入,甚至是学习蛋白进化/病毒逃逸等问题。但是自然界的蛋白质在进化过程中面临了各方面的外接压力,使用这些序列无法很好地表示抗体专属的特征类型。前几天,在NeurIPS 2021上,RosettaCommons的Gray Lab团队展示了抗体预训练模型AntiBERTy,相对于AntiBERTa的参数量增加了10倍,并展示了如何用于分析抗体在体内的亲和成熟轨迹以及抗体CDR热点补位残基的预测效果。

一、背景介绍

抗体是真核动物赖以生存的强大适应性系统,当有外援病原体或蛋白进入自身体内时,免疫系统被激活。最初的抗体由浆细胞(分化B细胞)分泌,这种细胞通过VDJ基因重组的方式将抗体(BCR: B细胞受体蛋白)序列每个结构域的三片段组装起来,从而构建出千变万化的序列。

科普连接:

https://www.bilibili.com/s/video/BV1TS4y1R7o5

https://zhuanlan.zhihu.com/p/133865079

产生的新的BCR序列的形式展示在B细胞的表面。通过体内淋巴循环系统的流动,在淋巴结的B细胞滤泡中,庞大的B细胞受体库先接受抗原对其进行的达尔文式的选择,从无比庞大的B细胞群中选出其受体能与抗原有足够亲和性的B细胞(此时初代抗体的结合力还比较弱)。随着免疫反应的进程发生,这类B细胞中抗体结合相关的基因片段的不断发生点突变(相当于进一步构建子库),那些亲和力更强的抗体序列得到进一步地富集,这个过程称之为亲和成熟。可见在抗体产生的过程中会产生巨量的序列库,对于个体而言,这个序列库也被称为免疫组库(Immune repertoire)。

据统计免疫组库中大约50%的序列对抗原都存在一定的特异性相互结合,当然也会富集一小撮高频的序列,这些高频的序列有更大的可能性具有中等或强的亲和能力。通过二代测序技术,已经可以非常轻松地从供体的血液中获取免疫组库。

目前已经有了公开的抗体数据集可使用,其中最为知名的就是Observed Antibody Space (OAS) 数据库,其中含有约71.98M序列数据(52.89M未配对重链和19.09M未配对轻链) 。

二、模型构建

为了学习到抗体的表征,AntiBERTy采用了BERT构架,其中隐藏层维度为512,feedforward层为2048维,共计8层,每层8头注意力。共计约26M的参数量。以OAS数据库中约5.58亿条(95% training,5% testing)的自然抗体序列作为训练集,采用Mask Language Model的方式进行训练。共计训练8个epochs。

在后续分析抗体的亲和成熟轨迹,作者采用了多示例学习(Multiple instance learning)来分类预测一条抗体序列为binder的概率。由于免疫组库中的数据都是没有标签的数据,作者利用克隆扩增率和抗原结合直接的关系做为noisy label,假设那些出现频率高的抗体序列为binder,反之为non-binder。具体做法是将排名前85%富集的冗余序列标记为binder,其余为non-binder。每个bag从中随机采样64条序列来产生阳性样本或负样本的训练数据集。

MIL的构架分为两部分包括实例的Instance embedding和Bag classification两部分来进行弱监督式学习。Instance embedding中使用了attention注意力机制将维度压缩至1x32维。在Bag classification中使用gated attention对64条Instance embedding进一步池化,最后接上2层的NN来预测64条序列(Bag)的label标签,使用的是交叉熵训练了20个epochs。特别注意的是,训练使用的bag中binder和non-binder的采样频率是均等的。

(由于预印版本中的QKV维度有误,笔者将推理过程附着于上图)

三、应用效果

训练好模型之后,作者尝试将AntiBERTy用于两个场景:

分析免疫组库进化路线:使用AntiBERTy对4组产生了VRC01族抗体(这是一种针对HIV蛋白酶的广谱性抗体,至少需要患病1-4年才可进化出来。)的捐献者免疫组库进行分析,将所有的序列进行矢量化,并制作k-nearest-neighbor graph,作图可以看见,4位病人的的抗体亲和力进化的轨迹,有趣的是将4组抗体序列进化路线整合在一起时,可以发现随着病程的进展,其中有3位都进化出了类似的VRC01组抗体序列,通过统计冗余度,作者发现embedding空间的序列分布较为均一,这一现象可能与抗体的多轮迭代的亲和成熟有关,从而产生了足够的抗体多样性。

使用MIL model进行弱监督式学习,预测VRC01抗体的补位信息:为了验证MIL模型学到了抗体的结合性质,作者搜集了10个VRC01抗体-复合物的晶体结构。首先将每条已解析的抗体序列输入MIL模型,使用single-bag模式预测序列为binder的概率。其次为了分析MIL中是否学习到了结合的关键信息,作者通过将MIL的4个注意力头的per-residue attention score映射回抗体的三维结构中,结果表明10条序列中有7条序列的CDR-H2关键结合残基被预测到,并且第二个注意力头更加关注CDR的结合信息,而其他注意力头更关注抗体自身框架区域的残基。这个现象与之前观察到现象一致,VRC01功能性抗体的形成需要大量的框架区域的突变。

四、AntiBERTy应用展望:

  1. 在收集了免疫血清的前提下,可以使用AntiBERTy在缺乏抗体抗原复合物的前提下,分析出抗体中的CDR的关键热点残基信息,在后续的抗体性质优化过程中可避免这类位置的突变,提高设计的成功率。
  2. 在收集了多只免疫动物血清的前提下,直接使用本文的MIL二分类模型对库中的序列进行预测,缩小阳性binder表达筛选的序列量(一般免疫完还要转噬菌体库筛)。
  3. AntiBERTy提供了较为先进的预训练模型,结合fintuning应用到更多的针对抗体优化的任务。

No Code or Model Released。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
    • 一、背景介绍
      • 二、模型构建
        • 三、应用效果
          • 四、AntiBERTy应用展望:
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档