今天为大家介绍的是来自david baker团队的一篇论文。该篇文章探索了针对单一蛋白质,利用变分自编码器(Variational Autoencoder, VAE)生成蛋白质构象集合的方法。baker团队利用这个方法来产生K-Ras的3D结构集合,在K-Ras晶体结构和分子动力学模拟快照上训练VAE。实验表明,该隐空间采样程序能够快速生成高结构质量的蛋白,与留出集(held-out set)的晶体结构相近(差距在1埃),在结构一致性上超过了分子动力学模拟(Molecular Dynamics,MD)和AlphaFold2方法。此外,采样得到的结构足以重现留出集中晶体结构的隐蔽口袋。
药物发现领域主要的挑战是找出能够被小分子药物靶向的隐蔽口袋。尽管AlphaFold和RosettaFold等工具在预测单一稳定态的天然蛋白质结构上取得了显著进展,但它们通常只能生成单一的结构,而非一组可能的结构(这也是标题里强调的ensemble)。生成这样的结构集合仍然是生物学和药物发现中的一个未解决的问题,因为在真实的生物环境中,蛋白质可能会采取多种不同的构象。
分子动力学轨迹通过模拟蛋白在其天然结构周围的移动来生成蛋白结构集合,并且常用于在小分子对接计算前先生成结构集合,但是这种方法往往不能在未结合结构(unbound structure)中识别不存在的隐蔽配体结合口袋,或需要耗时长、计算代价高昂的模拟。
Rosetta片段组装和最小化以及运动学闭合方法已被用于模拟蛋白质和环形结构的构象多样性,但这些方法通常没有采样到涉及隐蔽口袋形成的构象变化类型。
在深度学习领域,将复杂数据投影到更小维度隐空间的VAE模型,已经被用来生成一般蛋白质设计任务的替代主链(alternative backbones),如64残基主链的从头设计,基于图的蛋白涉及,Ig-fold建模。
VAE先前就用于采样蛋白的构象空间,但需要对训练后的隐空间进行可视化,或者专注于映射广泛的分子动力学模拟中目标蛋白质的apo(未结合)和holo(结合)状态的相关波动。
作者认为,在VAE的隐空间内进行采样是特定蛋白质序列的集合生成问题的一种解决方案。先前大多数VAE方法都是训练在许多不同的蛋白上。如果针对单个蛋白开发特定的VAE,这件事的难点在于训练数据过少。但是作者认为可以通过补充感兴趣蛋白质的可用晶体结构的替代构象、添加从这些结构开始的短分子动力学轨迹的快照,从而克服数据量小的限制。而baker团队选择了关键的癌症靶点K-Ras作为模型系统,选择该靶点原因有二:治疗意义重大、可用的结构数据多。
模型部分
图 1
具体方法为:利用VAE将高维的蛋白质结构数据转换为连续的低维表示;基于结构质量指标的引导在隐空间中进行搜索;利用受采样结构信息引导的RosettaFold来生成3D结构集合。
对于输入数据集,作者选择了在PDB中存储的K-Ras构象作为“训练集晶体结构”,这些构象至少相隔1 埃(基于Cα坐标计算)。除了RMSD cutoff filter外,作者还选择了已知存在抑制剂的构象。作者根据这些标准选择了20个K-Ras结构。对于每个K-Ras晶体结构,作者在未结合的形式(apo)下进行了为期10ns的MD模拟,并从5个独立的轨迹中每50ps选择一个快照,每个起始结构总共得到1000个MD快照。使用AMBER19SB力场和TIP3P水模型在周期性边界框中进行模拟。在300K的恒定温度和1atm的压力下运行Langevin动力学。对于每个目标晶体,训练数据由训练集晶体结构的MD快照组成。作者最终选择了20个K-Ras构象:4DSO、5XCO、5YXZ、6PGP、7EWB、8AFD、8DNI、4LV6、4L9W、5V9O、6B0V、6N2K、6P8W、7RT1、7U8H、4Q21、5V71、5E95、6H46和7C40。所有3D结构都被转换为RoseTTAFold的2D模板特征(tensor形式),捕获20埃范围内每对残基之间的6D变换(尤其关注Cβ−Cβ距离)。这些特征从N、Ca、C和Cb原子的笛卡尔坐标中提取。6D坐标包括成对距离和角度(omega、theta和phi)。作者选择使用原始距离和方向值来训练模型,以便于解释潜在空间。
在仅使用MD快照作为训练数据的第一轮训练之后,作者从潜在空间生成了3000个样本,这些样本针对评分指标进行了优化,满足多样性要求。这3000个生成的结构与初始MD快照训练集拼接起来,形成了模型的“增量式学习”(Incremental Learning)训练结构集。使用这个新数据集,对于每个靶点从头开始训练。增量式学习有利于VAE的训练,因为其提供了更大、更多样的结构数据集用于探索,改善了结构多样性的表达,最终提高了对于目标晶体的生成样本准确性。
作者发现使用软内省架构的VAE(Soft-Introspective VAE)取得了最佳结果,这种架构已被证明具有比传统VAE更高的输出分辨率。这个模型的目标函数除了传统VAE的重建损失和KL散度外,还融入了类似于生成对抗网络(GANs)的对抗性损失,但它是通过内省方式训练的。在SI-VAE架构中,编码器充当隐式的“鉴别器”,通过赋予真实样本和生成样本的置信下界(Evidence Lower Bound, ELBO)来引导区分。解码器则充当“生成器”,其目的是生成样本骗过编码器(鉴别器)。编码器和解码器训练使用的目标函数如下。
图 2
图 3
重建损失是模型解码出的模板特征上所有距离和方向的均方误差损失。VAE架构中编码器和解码器都各有3个ResNet块,每个块具有64个卷积核。编码器包含带有BatchNorm和Leaky ReLU激活函数的卷积层,一个输出维度为256维的线性层。解码器由三个部分组成:线性层,转置卷积和ResNet块。整个网络中均应用Leaky ReLU激活函数。通过在ResNet块中使用残差连接实现了跳跃连接。编码器和解码器都使用了BatchNorm,同时应用weight decay以防止过拟合。在解码器中,转置卷积负责上采样,而在编码器中,步长为2的卷积层实现下采样。这种全面的架构确保了有效的编码和解码性能,有助于提升VAE的整体表现和可重复性。模型采用了为编码器和解码器分别优化的优化器,都使用了初始化参数为Adam(β1=0.9,β2=0.999)优化器,学习率为1 × 10−3,batch size为64。
为了使用训练好的解码器获取优化结构,作者在潜在空间中使用了梯度优化。首先,作者从标准高斯分布(均值=0,标准偏差=1)中随机采样n个数,其维度与隐空间相等。初始化的隐空间坐标设置为可训练的。然后,每个样本被解码成相应的模板特征,且通过径向基函数(Radial Basis Function,RBF)将Cβ距离离散化以确保反向传播。作者选择优化的得分指标是所有5个AF2预测的目标结构和生成的Cβ距离之间的最小分类交叉熵(categorical crossentropy,CCE)。Adam优化器修改隐空间样本以最小化这一得分指标。这个过程重复进行直到收敛。为了确保维持多样性,限制隐空间坐标只在其初始起点坐标的欧几里得距离d(=10)内探索。该探索技术的目标是搜索隐空间,以找到比初始随机生成坐标更好的解决方案。最终收敛的隐空间坐标被解码成各自的模板特征,并连同目标MSA一起传入RoseTTAFold进行结构建模。
图 4
对于每个对接案例,使用蛋白-配体对接方法Rosetta GALigandDock,将抑制剂配体(inhibitor ligand)对接到受体上,提取出复合晶体结构中的配体原子坐标,用于配体对接。对配体进行质子化,通过openbabel、AMBER套件中的Antechamber和UCSF Chimera工具,计算AM1-BCC部分电荷。配体信息被转换为与Rosetta generic potential(GenFF)兼容的参数格式。通过将复合晶体结构与采样的蛋白质主链叠加,确定配体开始对接的初始位置。蛋白-配体对接允许与配体相距6埃内的侧链具有灵活性。受体事先使用Rosetta FastRelax进行了优化,每个主链都施加了高约束。作者为每个受体模型和配体对运行了20次并行对接实验,分析了合并结果,其中最佳评分的生成样本与训练集的最佳评分模型、训练晶体和AlphaFold模型进行了比较。
VAE重建准确率
图 5
这张图展示了各模型结构预测的效果。在条形图图的上部,有三个蛋白质结构的对比,显示了真实晶体结构(灰色)、AF2预测模型(蓝色)和VAE重建模型(橙色)之间的结构叠加,用于展示预测和实际结构之间的相似度。下方的条形图显示了AF2和VAE重建模型在不同蛋白晶体结构的C-alpha坐标的RMSD偏差。RMSD值低于1埃的被认为是高度精确的预测(对应图中的灰色虚线)。VAE重建模型在20个晶体中的13个晶体预测中RMSD低于1 Å ,而AF2模型只有2个晶体预测的RMSD低于1 Å 。
隐空间的PCA可视化分析
图 6
作者对隐空间使用PCA方法降维可视化。这里可以看出,由模型生成的样本在分布上与用于训练该模型的样本相似,并聚集在目标晶体结构的周围。
K-Ras结构重建评估
图 7
在条形图图的上部,有四个蛋白质结构的对比,显示了不同模型预测的结构叠加。条形图显示了不同蛋白质结构预测方法相对于目标晶体结构的C-alpha坐标均方根偏差(RMSD)。这些方法包括:MD Snapshot、AlphaFold2(AF2)、MD+RoseTTAFold、VAE重建模型。作者发现,从VAE生成的3000个结构样本比其他所有方法更接近留出集(held-out set)的目标晶体结构。
K-Ras隐蔽口袋重建评估
图 8
对于小分子对接计算,配体结合口袋几何形状的采样尤其重要。因此,作者根据结合位点残基来计算测试晶体结构的 C-alpha 坐标误差。在图的上部有三个复合物的结构叠加,展示了与目标晶体结构结合的配体抑制剂,其中隐蔽结合口袋和配体以橙色高亮显示。结构叠加展示了目标结构的配体与VAE生成的样本之间没有冲突,说明VAE生成的样本在结构上可以容纳配体而不受阻碍。而其他模型存在明显的冲突。在下方的条形图中,比较了生成的样本集合中最接近的构象与留出结构之间的C-alpha坐标RMSD,特别是在配体结合口袋残基上的RMSD。结果表明,在大多数情况下,VAE采样生成的构象比最接近的训练MD快照或晶体结构更接近留出集中的结构。
小分子对接到VAE生成的结构集合
图 9
图中显示了三个不同蛋白质结构的配体对接情况的可视化,以及与之相关的配体原子均方根偏差(RMSD)的统计条形图。作者这里使用的是Rosetta GA-ligand docking方法。在图的左侧,可以看到三行结构叠加,每行代表一个特定的蛋白质结构(分别为4LV6、5YXZ和6PGP),每个结构中都有一个配体(彩色结构)。而每一列代表一种特定的方法预测(第一列除外,第一列为留出的晶体结构复合物)。右侧的两个条形图显示了两种RMSD值。上方的条形图展示整个结合口袋的RMSD,而下方的条形图则展示配体原子的RMSD。
从图中可看出,VAE生成样本的集合表现出的RMSD值普遍低于AF2预测的RMSD值,而且在大多数情况下也低于MD集合的RMSD值。这意味着由VAE生成的模型能够以更高的精度对配体进行对接,显示了这些模型的对接位置与实验数据之间的更好一致性。
编译 | 黄海涛
审稿 | 王建民
参考资料
Mansoor, Sanaa, Minkyung Baek, Hahnbeom Park, Gyu Rie Lee, and David Baker. "Protein Ensemble Generation through Variational Autoencoder Latent Space Sampling." Journal of Chemical Theory and Computation (2024).