作者:田小幺
编辑:李宝珠
转载请联系本公众号获得授权,并标明来源
美国华盛顿大学 David Baker 团队近期利用先进生成模型,通过合成 OLG 设计研究,从工程化角度验证其可行性。研究团队针对 2 个蛋白家族设计重叠序列,编码高度有序的从头设计蛋白结构,计算机模拟与实验验证均显示出极高成功率。
1977 年,英国生物化学家弗雷德里克·桑格(Frederick Sanger)在解析 ΦX174 噬菌体基因组时,首次发现了一个颠覆认知的现象:这个仅 5.4kb 的 DNA 分子编码的蛋白质总长度,远超其物理容量限制。测序结果揭示,两对基因通过不同阅读框架共享同一 DNA 区域——这种被称为重叠基因(OLG)的现象,在病毒世界中极为普遍。例如,乙型肝炎病毒 3.2kb 基因组中,50% 区域被多对重叠基因覆盖,超过半数已知病毒至少含有一个 OLG。
这种突破直觉的基因组设计,暗藏着病毒的生存智慧:当病毒在宿主细胞内争夺有限空间时,OLG 通过「基因叠罗汉」策略,让单个核苷酸同时参与两个密码子编码,在紧凑序列中实现功能叠加。桑格团队的发现开启了相关研究,后续研究表明,OLG 编码的蛋白质常具有高序列简并性(degenerate),其氨基酸序列容错性使两种功能蛋白能在同一 DNA 链共存。更关键的是,即使需要形成明确三维结构的蛋白质,也能通过序列编排,在不同阅读框架中实现折叠兼容。
然而,核心疑问始终存在:标准遗传密码下,氨基酸序列简并性能否支持任意功能蛋白对在重叠框架中折叠?当核苷酸需兼顾双重编码时,蛋白质折叠的序列空间是否被严重限制?
美国华盛顿大学 David Baker 团队近期利用先进生成模型,通过合成 OLG 设计研究,从工程化角度验证其可行性。研究团队针对两个蛋白家族设计重叠序列,编码高度有序的从头设计蛋白结构,计算机模拟与实验验证均显示出极高成功率:在重叠约束下,可变阅读框架(alternative reading frames)不仅能容纳明确三维折叠,同时其结构稳定性与功能完整性与非重叠序列相当。
相关研究成果以「Design of overlapping genes using deep generative models of protein sequences」为题,已在 bioRxiv 发表预印本。
论文地址:
https://doi.org/10.1101/2025.05.06.652464
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:整合多维度数据资源与分析方法
为解析遗传密码可塑性及其在蛋白质设计中的应用,研究整合多维度数据资源与分析方法,构建从理论设计到实验验证的完整研究链条。
在遗传密码随机化研究中,该研究基于氨基酸置换(amino acid permutation)与密码子重排(Codon shufflers)策略,生成 1,000 种替代密码子组合。这一数据集通过明确的算法设计保障了样本多样性与均匀性,为评估密码子重排的功能影响提供了统计学基准。
同时,研究选取 3 个具有代表性的二级结构目标蛋白,构建 9 组成对组合,在控制变量的前提下实现实验条件的标准化,有效连接遗传密码变异与蛋白质结构功能的关联性分析。
在蛋白质结构域序列分析环节,该研究从 Pfam 37.0 数据库提取种子序列,通过随机抽样截取长度 100 氨基酸的子区域,并利用马尔可夫模型生成保留 k-mer 分布的合成蛋白序列。该方法融合生物信息学筛选与统计建模,既保留天然蛋白质的序列特征,又通过引入可控随机变量创建对照样本,为后续分析提供了兼具自然属性与人工设计特征的创新数据集。
在蛋白质语言模型嵌入分析中,研究人员提取 ESM2、ESM3 和 ProstT5 的隐藏层特征,经位置平均后通过 UMAP 算法投影至二维空间。通过精准设定 n_neighbors = 15 等参数,高维序列特征被转化为直观的拓扑图谱,在保留序列相似性结构的同时,为跨模型比较提供了统一的可视化框架,展现了计算生物学与数据可视化的前沿结合。
在实验验证阶段,研究人员对 192 个重叠基因进行克隆重组,生成 384 种框架位移蛋白变体。实验严格控制关键参数:37°C 培养 20 小时确保大肠杆菌表达系统稳定,6M 盐酸胍梯度复性方案保障包涵体蛋白正确折叠。这种从分子设计到纯化表征的全流程量化控制,不仅提升了研究结论的可重复性,更为蛋白质工程提供了标准化实验范式。
OLG 的克隆重组示意图
基于生成模型的 OLG 设计:多框架兼容的序列同步优化方法
该研究开发了一种计算算法,有效应对重叠基因(OLG)设计中因编码框架相互依赖导致的序列空间受限难题,实现了两个蛋白序列适应性的同步优化。
在算法设计层面,研究整合了 EvoDiff-MSA 和 ProteinMPNN 等生成模型。前者基于 MSA Transformer 架构,通过自回归扩散目标训练,能以目标蛋白多序列比对(MSA)为条件生成设计序列;后者作为结构条件生成模型,可在给定三维结构时设计对应蛋白序列。两类模型均采用逐位置掩蔽与约束采样策略,生成了涵盖多种偏移量和框架排列的重叠序列库。
如下图 A 所示,针对 5 种可变阅读框架(+1、+2、-0、-1、-2)的相位约束,该研究提出逐帧(Frame)迭代采样策略。
在同一核苷酸序列中编码一对蛋白质的 5 种可能的可变阅读框架
如下图 B 所示,通过分析 -0 框架的氨基酸兼容性矩阵发现,参考框架中单个位置平均存在 2.6 种兼容氨基酸选择,形成 52ⁿ(n 为序列长度)种潜在重叠序列对,凸显遗传密码简并性带来的设计空间。借助蒙特卡洛近似(Monte Carlo approximation)量化其他框架自由度(degrees of freedom),如下图 C 所示,结果显示 +1 和 -1 框架自由度较高(分别约 2.8 和 2.9),而 -2 框架因密码子简并性利用效率低,自由度显著受限(约1.4)。
二维兼容性矩阵和蒙特卡洛近似图
最终,如下图 D 所示,算法通过系统扫描序列位置(Scan order),在每次扫描中结合相邻氨基酸约束动态更新联合概率(joint probability)矩阵,经多轮迭代后确保生成的重叠序列对满足框架的兼容性(compatibility)。该策略可扩展至含相位偏移的复杂框架,通过偏置扫描顺序优化设计质量,为生成模型的迭代解码(iterative decoding)提供了关键约束条件。
设计 OLG 的约束迭代采样算法示意图
领取专属 10元无门槛券
私享最新 技术干货