前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SQL:基于结构化Q学习的抗体设计

SQL:基于结构化Q学习的抗体设计

作者头像
DrugAI
发布2022-11-28 17:56:50
2880
发布2022-11-28 17:56:50
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 应俊杰 审稿 | 陈梓豪 指导 | 闵小平(厦门大学)

今天给大家介绍的是华为发表在 arxiv 上的预印本《Structured Q-learning For Antibody Design》。作者将用于组合优化的结构先验融入进 Q 学习中,提出了结构化 Q 学习 (SQL),这是一种 Q 学习的扩展。经过分子对接模拟器的测试,作者证明 SQL 可以找到具有高结合能的序列,并在八项具有挑战性的抗体设计任务(包括为 SARS-COV 设计抗体)上优于基线。

1

研究背景

组合优化是许多领域面临的普遍问题,其中一个任务是找到组合变量的有序或无序排列,以最大化目标函数。在生命科学中,组合问题涉及 DNA、mRNA 和蛋白质等核心结构,以及由 SMILES 或 SELFIES 字符串表示的功能分子。作者构建模型来解决抗体设计中的组合问题。这项工作的贡献如下:(i)引入了结构化 Q 学习(SQL),这是 Q 学习的扩展,配备了结构先验,如结构批评目标、结构策略评估、结构探索算子和结构策略改进 . (ii) 使用分子对接模拟器(Aboslut!),展示了引入的结构先验允许 SQL 在具有挑战性的抗体设计任务上的改进。

如上图公式所述,组合优化的目标是找到最优结构s*最大化目标函数f,在抗体设计的背景下,目标函数f是一个分子对接模拟器,它接受一个抗体蛋白序列,并评估其对目标抗原的结合能(亲和力)。

2

结构化的Q学习

作者团队提出结构化 Q 学习。SQL 是一种用于组合优化的异策略强化学习(off-policy RL)算法,由引入结构先验的四个组件组成:结构批判器(structure critic targets)、结构策略评估(structure policy evaluation)、结构探索算子 φ 和结构策略改进,如图1中的算法。

图2:结构化Q学习算法

随机结构评估:在第一步中,我们对随机结构 s进行采样并在环境中对其进行评估,以获得完整结构 f (s) 的reward,并将其结构s(i)和亲和力得分f(s(i))存在缓存区来训练 SQL 的结构critc。

结构批判器:根据从上一步获得的观察到的structure-reward对训练结构critic,critic 的目标是学习直接预测预期奖励 f (s),本文利用因式分解训练。

结构策略评估: critic被训练来获取结构并预测其目标函数值,这一步骤可以使用不同的策略,以确定下一个的结构策略改进步骤应该是什么。通常,生成一条序列的策略可以是顺序生成或一次性同时生成。

结构探索算子Φ:引入结构探索算子以便在训练过程中探索新的结构。从结构缓冲区中均匀地采样一个结构时,引用一个统一的替换操作从另一个分布采样新结构。

结构性策略改进:策略改进用于权衡何时探索或采用,作者将这些探索策略推广到结构上。为了做到这一点,作者团队定义了一个标准p来选择贪婪结构或随机结构。作者提出3种策略,分别e-greedy、S-greedy、Sampling来决定继续探索还是采用序列。

图3: 使用 Transformer 实现的两种结构策略评估策略。

左侧显示顺序策略(Greedy),右侧显示非顺序策略(Masked)

作者团队用一种Transformer网络来训练结构 critic。在顺序情况下,以与自回归语言模型类似的方式训练 SQL Critic,其结构类似 GPT 一样,带有一个对角注意力掩码,防止注意力机制中的“前瞻”。当以同时生成为目标时,Critic 被训练为类似于 BERT 或 RoBERTa 等非自回归掩蔽语言模型,使其能够同时预测多个变量。

3

实验与结果

抗体设计问题:抗体是大的 Y 形分子,在其可变区末端与抗原结合由于其结构多样性,位于抗体可变区末端的 CDRH3 蛋白序列在确定其结合特异性方面起着至关重要的作用。因此,抗体设计过程的一个目标可以是在 CDRH3 区域中找到一个蛋白质序列,该序列将决定最佳结合位点。在作者的工作中,使用 Absolut!模拟分子对接(结合),它计算来自序列的分子表示的晶格视图并评估其与抗原的结合。如上所述,本文使用 Absolut!对接模拟器作为目标函数f。

SQL 和基线设置:作者使用 k=1(贪婪)和 k=20(Beam)的束搜索使用 SQL 评估两种顺序结构化方法评估策略。还评估了非顺序策略(Masked)。对于结构化的策略改进,作者使用从实验结果中选择的 S-greedy。比较了用于组合优化(具有结构先验)的 SOTA RL 算法的两种变体(Critic 和 MaxB)并将其命名为结构化策略梯度(SPG)。基线包括流行的组合优化算法模拟退火 (SA)、随机搜索 (RS),以及传统Q-learning (QL) 和策略梯度 (PG)。

图4:显示了八种高度不同的抗体设计任务的热图结果

每个块都是一个独特的抗体任务。每列是一种方法,每个单元格是 10 个种子的平均结合能,而 y 轴显示随时间变化的蛋白质设计数量。根据模拟退火最终平均性能的改进程度为每个单元着色,较深的颜色突出显示增加的改进。

图5:跨抗原任务和随机种子平均的归一化结合能热图

该图进一步显示了所有随机试验和多个抗原任务的平均归一化能量。大于 1.0 的归一化分数意味着,该方法找到的抗体序列比690万个序列(来自Absolut!数据库)具有更好的能量分数。我们观察到 SQL(Masked)排名是最好的方法,平均而言,只有 SQL 变体的能量得分(> 1.0)。在该图中,我们看到QL 与 SQL相比、PG 与 SPG相比,结构先验提高了性能。

图6:为 SARS-COV (2DD8_S) 选择的 AA 比例热图,颜色越亮,比例越高

该图跟踪了针对所有种子的 SARS-COV 上不同药剂的优化过程中的氨基酸选择。对于每个氨基酸(x 轴),显示了它在每个结构建议步骤(y轴)中选择的比例。SQL 和 QL 在整个任务中都显示出不同的踪迹;虽然 QL 似乎在继续探索,但 SQL 最终专注于利用一些核心氨基酸的变化来提供出色的能量评分。

图7:结构先验消融

作者展示了改变评估方法和改进策略的影响。对于每个评估方法(贪婪、光束搜索、掩蔽),运行所有可能的改进策略(e-greedy、S-greedy、sampling)。并与 SPG (Critic) 进行比较,后者是先前实验中总体上表现最好的非 SQL 方法。每种方法对 20 个种子进行了消融研究。似乎所有评估策略的最佳改进策略是 S-greedy,而性能随着 e-greedy 和sampling而降低。有趣的是,对于掩蔽策略评估,sampling似乎明显优于 e-greedy。

4

结论

作者介绍了结构化 Q 学习(SQL),这是对具有结构先验的经典 Q 学习的扩展。作者使用分子对接模拟器评估了 SQL 优化蛋白质序列并与各种目标病原体结合的效果,观察到它显著改善了现有的强化学习方法。所有学习算法都使用相同的神经架构,不同之处仅在于该架构如何被利用起来。作者团队希望将 SQL 扩展到其他组合领域,以及类似地采用其他异策略强化学习方法进行组合优化。

参考资料

Cowen-Rivers A I, Gorinski P J, Sootla A, et al. Structured Q-learning For Antibody Design[J]. arXiv preprint arXiv:2209.04698, 2022.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档