

在结构生物学领域,深度学习驱动的蛋白质结构预测技术已实现革命性突破,以AlphaFold系列、Boltz系列为代表的模型将预测精度推向接近实验水平。然而,生物体内的蛋白质并非静态单一结构,而是通过在多个功能构象间动态转换实现生理功能——从膜转运蛋白的内外向构象切换,到酶的激活/抑制状态转变,再到折叠转换蛋白的拓扑结构重排,构象多样性是蛋白质功能实现的核心基础。
当前主流预测模型多输出单一优势构象,难以捕捉这种动态多样性。传统解决方案如分子动力学模拟、MSA(多序列比对)扰动等,或面临计算成本高昂的问题,或依赖经验性参数调整,缺乏系统性和可解释性。近日,日本筑波大学Suzuki和Amagasa在bioRxiv发表的研究,提出了一种名为Boltz-sample的创新性构象采样策略,通过对Boltz-2模型隐空间对表征(latent pair representation)的系统性缩放,实现了高效、可控的多构象预测,为解决这一核心难题提供了全新思路。
Boltz-sample的核心创新在于避开传统的输入扰动思路,直接对模型内部的潜空间表征进行调控,其技术设计兼具简洁性与深刻的生物学机制关联性。

Boltz-2模型采用AlphaFold3风格的架构设计,通过Pairformer模块整合序列特征与共进化信息,生成隐空间对表征张量(N为残基数,为表征维度),该张量本质上是介导进化约束向结构几何转化的残基-残基有效耦合场。
Boltz-sample在推理阶段的每个循环步骤中,对Pairformer输入的隐空间对表征施加全局标量缩放:

其中为核心调控参数,取值范围为(-1, 1)。这一操作不改变输入序列、MSA数据及模型训练权重,仅通过调整对耦合的有效强度,系统性调控扩散过程的信号噪声比。
传统MSA扰动方法(子采样、随机掩码、聚类等)通过修改输入进化信息诱导构象多样性,需依赖经验性参数选择(如子采样比例、聚类数量),且结果具有不确定性。而Boltz-sample直接作用于模型内部整合后的结构信息表征,通过单一参数实现对构象采样方向的系统性调控,将构象探索从 输入扰动的随机搜索 转变为 隐空间的定向导航 。
研究团队在三类具有代表性的基准数据集上,从构象覆盖度、预测精度、计算效率等维度,对Boltz-sample进行了全面验证,其性能表现显著优于传统方法。
OC23包含23个具有开放/闭合构象的蛋白质(成对TM-score ≤ 0.85),TP16则聚焦膜转运蛋白的向内/向外构象(排除超长序列SPF1后共20个靶点),两类数据集均来自AFsample2基准,是评估构象采样能力的经典测试集。

为验证方法的普适性,研究团队构建了MS15数据集,包含15个跨6大功能类别的蛋白质(激酶、GTP酶、折叠转换蛋白、膜转运蛋白等),涵盖铰链式结构闭合、电梯式转运、拓扑折叠转换等多种构象变化类型,构象多样性更丰富。


关键发现在于,Boltz-sample的优势并非依赖MSA提供的共进化信号。在无MSA输入的序列仅推理场景下:

通过系列消融实验与机制探究,研究团队揭示了Boltz-sample实现高效构象采样的核心机制,为理解深度学习模型的构象表征提供了重要 insights。
Boltz-2等先进模型在训练过程中,不仅学习了序列与结构的映射关系,还内化了丰富的蛋白质结构先验(如折叠模式、结构域相互作用规则等)。在常规推理中,这些先验被优势构象的强信号压制,而 缩放通过调整约束强度,起到了 解锁 这些潜在先验的作用,使模型能够访问被优势构象掩盖的替代状态。
这一机制挑战了 替代构象仅由共进化信号编码 的传统认知,表明深度学习模型具备捕捉序列内在结构可塑性的能力,而Boltz-sample提供了激活这种能力的有效工具。
研究团队对比了全局均匀缩放与基于图拉普拉斯的空间结构化缩放(根据残基相互作用网络的连通性赋予位置依赖权重):


Boltz-sample在MAD2(Q13257)等靶点上未能成功恢复替代构象,这一局限性源于其全局调控机制:当替代构象的信号被优势构象强烈压制(即 minority signal被平均化)时,全局缩放无法有效分离弱信号,而MSA聚类等方法通过明确拆分多模态共进化信号,可能在这类靶点上表现更优。
Boltz-sample通过对Boltz-2模型隐空间对表征的全局标量缩放,实现了蛋白质构象采样的系统性调控。其证实,先进深度学习模型的隐空间对表征中蕴含着丰富的构象多样性信息,这些信息可通过简单的标量调控被激活。这一发现为理解模型如何编码蛋白质动态特性提供了关键线索,推动了蛋白动态构象探索的理论认知升级。
参考文献:Shosuke Suzuki, Toshiyuki Amagasa, Steering Conformational Sampling in Boltz-2 via Pair Representation Scaling, bioRxiv 2026.01.23.701250