
DRUGONE
糖基化是真核生物中最广泛且最复杂的翻译后修饰之一,其在细胞识别、免疫调控、疾病发生以及蛋白功能调节中发挥关键作用。随着糖蛋白质组学的发展,基于液相色谱-质谱(LC–MS)的完整糖肽分析已经成为解析位点特异性糖基化的重要技术。然而,由于糖链结构复杂、碎裂模式高度非线性,完整N-糖肽的结构谱预测仍然面临巨大挑战。本文中,研究人员提出了一种基于Transformer架构的糖肽结构谱预测模型SpecGP,通过注意力增强的糖链碎片编码策略,实现了多碰撞能量条件下的高精度糖肽谱预测。
SpecGP不仅扩大了B/Y离子覆盖范围,还能够在不同碰撞能量下动态预测糖链碎裂行为,从而提高结构鉴定能力与实验兼容性。研究人员进一步引入多任务学习框架,同时预测质谱与保留时间,并结合自监督加权训练(SSWT)策略提升糖链异构体区分能力。此外,SpecGP还能够通过重评分(rescoring)显著提高糖肽鉴定数量。整体而言,该研究建立了一个适用于多能量条件与复杂糖链结构解析的统一AI框架,为高通量糖蛋白质组学谱库构建与DIA分析提供了新方案。

糖基化是一类广泛存在于蛋白质中的翻译后修饰,其结构高度多样化。近年来,基于LC–MS的糖蛋白质组学技术已经能够实现位点特异性完整糖肽鉴定,并推动了多种数据库搜索引擎的发展。与此同时,研究人员此前还开发了StrucGP等工具,用于无数据库依赖地解析N-糖链结构特征。
除了数据库搜索之外,谱图库搜索同样是糖肽鉴定的重要方法。随着DIA技术的发展,高质量谱图库的重要性进一步提高。然而,实验构建糖肽谱图库不仅成本高,而且覆盖范围有限,因此研究人员开始尝试利用深度学习预测糖肽谱图,以实现谱库扩展。
在蛋白质组学领域,已经出现大量基于深度学习的谱预测模型,但糖肽谱预测更加困难。原因在于,糖链具有高度非线性的树状结构,其碎裂会同时产生肽段b/y离子以及糖链B/Y离子,远比线性肽复杂。现有模型如DeepGP与DeepGlyco虽然已经展示出一定能力,但仍主要针对有限的碎片离子类型,并且主要适用于固定的阶梯碰撞能量(SCE)条件,因此在复杂实验条件下的泛化能力有限。
为了突破这些限制,研究人员提出了SpecGP。该模型基于Graphormer与Transformer架构,利用图结构编码完整糖肽,并设计了基于单糖碎片嵌入的B/Y离子编码策略,实现更全面的糖链碎裂预测。同时,研究人员还显式引入碰撞能量信息,使模型能够动态适应不同能量条件下的碎裂模式。
方法
SpecGP整体由编码器(encoder)、解码器(decoder)以及预测头(head)三部分组成。研究人员首先采用Graphormer对完整糖肽进行图结构编码,将氨基酸与单糖视为图节点,并通过空间编码、边编码与中心性编码描述糖肽结构。
随后,模型分别预测肽段b/y离子与糖链B/Y离子。对于糖链碎裂,研究人员设计了基于单糖单元的可学习嵌入策略,通过线性组合生成复杂B/Y离子表示,并利用cross-attention与糖肽结构特征交互,从而预测离子强度。与此同时,模型还显式加入前体离子电荷与归一化碰撞能量(NCE)编码,以实现能量敏感型谱预测。
除了谱图预测之外,SpecGP还采用多任务学习同时预测保留时间(RT)。在训练阶段,研究人员进一步引入自监督加权训练(SSWT)策略,通过动态调整训练样本置信度,减少错误标签对异构体学习的干扰。
结果
SpecGP构建基于Transformer的糖肽结构谱预测框架
研究人员首先介绍了SpecGP整体架构。模型采用Graphormer对完整糖肽结构进行编码,并通过Transformer实现长程结构信息建模。与传统线性序列模型不同,SpecGP能够直接处理糖链的非线性树状结构。
研究人员进一步提出了基于单糖碎片嵌入的B/Y离子编码策略。该方法通过线性组合不同单糖单位的嵌入向量,实现复杂糖链碎片的统一表示,从而兼容不同糖链类型与多级碎裂模式。
同时,SpecGP还将碰撞能量与电荷状态显式融入谱预测过程,使模型能够适应不同MS实验条件。

图1: SpecGP整体架构与糖链B/Y离子编码策略。
SpecGP显著提升糖链B/Y离子覆盖率与谱预测准确率
研究人员随后将SpecGP与DeepGP和DeepGlyco进行比较。结果显示,SpecGP在B/Y离子覆盖率方面具有明显优势。
在Mouse1数据集中,SpecGP能够匹配中位数11个B离子和17个Y离子,而DeepGP仅分别为4和9。相比DeepGlyco,SpecGP同样表现更优,尤其在高甘露糖型之外的复杂糖链中具有更高覆盖率。
研究人员进一步发现,SpecGP预测的谱图能够包含多个关键诊断离子。例如,双分支糖链的重要Y离子N3H1以及与岩藻糖定位相关的NF离子均能够被准确预测,而这些离子在DeepGP预测中缺失。
在谱相似性评价中,SpecGP的Spectral Angle优于DeepGlyco,同时在全谱余弦相似度上达到0.945,说明其不仅提高了离子覆盖率,也维持了较高预测精度。

图2: SpecGP与DeepGP、DeepGlyco在B/Y离子覆盖率与谱预测性能上的比较。
SpecGP实现多碰撞能量条件下的能量自适应谱预测
研究人员随后分析不同碰撞能量下的糖肽碎裂行为。结果显示,低HCD能量更容易产生较大的Y离子和B离子,而较高HCD能量则更容易生成小型碎片与肽段b/y离子。
基于这一现象,SpecGP显式引入NCE调制机制,使模型能够根据不同碰撞能量动态调整碎裂模式预测。研究人员进一步发现,多能量谱图相比模拟SCE谱图具有更强的结构区分能力,能够更好地区分不同糖链异构体。
在Mouse3数据集中,SpecGP在17种不同碰撞能量条件下均达到超过0.98的中位余弦相似度。模型还能正确重现糖肽随能量逐步碎裂的过程:低能量时糖肽整体保持完整,随着能量增加,糖链首先碎裂,而高能量下肽骨架裂解逐渐增强。
研究人员还在Mouse2与Human数据集中验证了模型泛化能力,结果显示不同能量条件下依然保持高精度谱预测性能。

图3: SpecGP在不同碰撞能量条件下的能量敏感型谱预测性能。
多任务协同训练提升保留时间预测能力
除了谱图预测之外,研究人员还利用SpecGP同时预测糖肽保留时间(RT)。通过分析Transformer最后一层注意力权重,研究人员发现,肽段部分通常对保留时间影响更大,但当糖链包含唾液酸时,糖链部分的重要性明显增加。
研究人员进一步比较了单独RT训练与联合谱图-RT训练。结果显示,多任务联合训练显著降低了RT预测误差。例如,在Mouse1测试集上,联合训练模型的中位绝对误差为0.0056,而仅RT训练为0.0076。
此外,在多个Mouse与Human数据集中,SpecGP的RT预测Pearson相关系数均超过0.98,说明该模型具有较强泛化能力。

图4: SpecGP的保留时间预测与多任务协同学习分析。
SSWT策略显著增强糖链异构体区分能力
研究人员随后利用SpecGP实现糖链异构体识别。对于同一糖链组成,模型会生成所有可能结构异构体,并通过谱相似度竞争确定最终结构。
为了降低训练数据中错误结构标签的影响,研究人员进一步提出SSWT策略。该方法会根据实验谱与预测谱之间的差异动态调整训练样本权重,从而减少错误标签干扰。
在Fut8敲除数据集中,SpecGP-SSWT成功将核心岩藻糖假阳性率降至0,而普通SpecGP与仅基于一级碎裂的SpecGP-PFSS则仍存在明显误判。与此同时,SpecGP-SSWT在排名前两位候选结构之间表现出最大的分数差异,说明其异构体区分能力最强。
研究人员进一步利用多能量谱图中的动态诊断离子验证模型预测,结果显示,大多数重新赋值结构都能够获得更高可信度支持。

图5: 基于SSWT策略的糖链异构体识别与结构重赋值结果。
SpecGP通过重评分显著提高糖肽鉴定数量
研究人员最后将SpecGP用于StrucGP结果重评分。模型会同时预测候选糖肽的理论谱图与保留时间,并结合实验谱计算新的综合评分。
结果显示,在Human1、Human2和Human3数据集中,SpecGP分别将糖肽鉴定数量提高32.59%、40.17%和17.03%。与此同时,被错误过滤掉的原始鉴定比例极低。
研究人员认为,这种提升主要来源于模型能够准确预测糖肽碎片强度,并利用峰强信息增强正确结构得分、压制错误结构得分。

图6: SpecGP重评分策略提升糖肽鉴定性能的结果分析。
讨论
本研究提出了一种基于Transformer的糖肽结构谱预测模型SpecGP。与现有模型相比,SpecGP通过Graphormer实现完整糖肽图结构建模,并创新性提出基于单糖碎片嵌入的B/Y离子编码策略,从而显著提高糖链结构谱预测能力。
研究结果表明,SpecGP不仅能够实现更全面的B/Y离子预测,还能够通过显式建模碰撞能量,实现多能量条件下的能量自适应谱预测。这使其在复杂糖链结构解析与谱库匹配中具有更强泛化能力。
此外,研究人员提出的SSWT策略能够有效降低错误标签对异构体学习的影响,并结合多能量动态诊断离子实现更可靠的糖链异构体鉴定。研究人员还进一步展示了SpecGP在糖肽重评分中的应用潜力,显著提高了糖肽鉴定数量。
不过,研究人员也指出,目前糖蛋白质组学AI仍面临高质量谱数据库不足的问题。例如,当前数据尚无法完整区分N-糖链左右分支、唾液酸连接方式以及部分单糖异构形式。因此,未来仍需要更高质量、多物种、多仪器的数据积累。
整体而言,SpecGP为糖肽能量自适应结构谱预测提供了统一AI框架,并有望推动大规模糖肽谱库构建、DIA分析以及复杂糖链结构解析的发展。
整理 | DrugOne团队
参考资料
Wang, X., Song, R., Feng, Z. et al. SpecGP as a transformer-based model for predicting energy-adaptable structural spectra of glycopeptides. Nat Mach Intell (2026).
https://doi.org/10.1038/s42256-026-01246-4