
代谢组学里有一个长期存在的问题:质谱能看到很多峰,但能解释出结构的峰远远不够。
在基于 LC–MS/MS 的非靶向代谢组实验中,仪器可以检测到成千上万个小分子相关信号。但在这些信号中,真正能被明确连接到化学结构的通常只是少数。剩下的大量未知峰,构成了代谢组中的 metabolic dark matter。

这篇 Nature 文章提出了一个很直接但很有启发性的思路:与其只在已有数据库里搜索未知峰,不如先让模型学习已知代谢物的结构规律,再预测哪些结构虽然还没有被系统收录,但可能真实存在于哺乳动物代谢组中。
这个模型叫 DeepMet。

DeepMet 的整体框架。模型以已知人类代谢物的 SMILES 表示为训练数据,学习代谢物样化学空间,并服务于两类任务:一是预测可能存在但尚未被系统识别的代谢物,二是结合 MS/MS 和保留时间等信息对未知代谢峰进行结构注释
DeepMet 是一个基于 SMILES 的化学语言模型,它从已知人类代谢物结构中学习代谢物的结构规律,并将这种规律用于预测和发现此前未被识别的哺乳动物代谢物。
需要注意的是,DeepMet 并不是直接从实验 MS/MS 谱图一步生成最终结构。它的核心作用更像是提供一个结构先验:哪些分子从已知代谢物的结构规律来看,更可能是真实存在的生物小分子。
后续的实验约束来自准确质量、MS/MS 谱图、保留时间、同位素模式以及标准品验证。
也就是说,这项工作的关键不是单独使用语言模型解决代谢物鉴定,而是把 生成模型提供的候选结构空间 和 质谱实验数据提供的证据 结合起来。
传统代谢物鉴定高度依赖已有数据库和化学标准品。一个常见流程是:
这个流程在已知代谢物上很有效,但问题也很明显:如果数据库里没有这个结构,检索流程很难给出正确答案。
代谢物数据库并不完整。HMDB 中存在大量 expected 或 predicted 条目,但并不等同于已经在人类组织或体液中实验检测到。作者因此没有直接把所有 HMDB 条目都拿来训练,而是从 HMDB 4.0 中筛选出 2,046 个已经在人类组织或体液中实验检测到的非脂质小分子代谢物 作为训练集。
这个选择很重要。模型学习的是经过实验支持的人类代谢物结构,而不是把规则预测、组合枚举或未检测条目也混进训练集。
DeepMet 把分子结构表示为 SMILES 字符串,并用语言模型学习这些字符串中的结构规律。
具体做法可以分成两步:
第一步,模型先在 ChEMBL 的药物样小分子上预训练,用来学习 SMILES 的基本语法。
第二步,模型再在 HMDB 中筛选出的已知人类代谢物上微调,让模型适应代谢物结构空间。
模型架构上,作者使用的是 LSTM。虽然现在很多生成模型会自然想到 Transformer 或 diffusion model,但这篇工作里的重点不在模型架构本身,而在于如何把化学语言模型的输出转化为可实验验证的代谢物发现流程。
这篇文章里最关键的一个设计,是作者没有直接使用单条 SMILES 的 likelihood 作为结构评分。
原因在于,同一个化学结构可以对应多个不同的 SMILES 表达。模型可能对不同 SMILES 给出不同概率,因此单条字符串的概率并不稳定。
作者采用了一个更稳健的策略:从模型中大量采样,然后统计每个唯一化学结构被生成的频率。
如果一个结构在 10 亿次采样中反复出现,说明模型更倾向于认为它是已知代谢物结构空间的合理延伸。这个采样频率随后成为 DeepMet 进行候选排序的重要指标。

采样频率作为代谢物样性的排序信号。作者从 DeepMet 中采样 10 亿条 SMILES,并统计每个唯一结构出现的次数。高频生成结构更接近已知代谢物,也更富集 HMDB 5.0 后来新增的实验检测代谢物。
作者做了多组验证,说明高频生成结构确实更像真实代谢物:
第一,结构空间重叠。
DeepMet 生成分子在 UMAP 化学空间中与已知代谢物高度重叠。
第二,分类器难以区分。
随机森林分类器尝试区分已知代谢物和生成分子时,AUC 只有 0.57,接近随机水平。
第三,能覆盖部分酶促转化规律。
虽然 DeepMet 训练时没有显式输入酶反应规则,但它生成的结构能够覆盖 BioTransformer 预测的 77.5% 一步酶促转化产物。
第四,采样频率越高,代谢物样性越强。
高频生成结构与已知代谢物更相似,更容易与规则预测的酶促转化产物重合,也更可能共享已知代谢物的 scaffold。
这说明 DeepMet 的输出不是简单的随机分子集合,而是带有明显的代谢物样偏好。
为了测试 DeepMet 是否真的能预测尚未被系统识别的代谢物,作者做了一个很有说服力的前瞻性验证。
他们用 HMDB 4.0 中的已知代谢物训练模型,然后看模型能否生成 HMDB 5.0 后来新增的实验检测代谢物。
结果是,在 HMDB 5.0 新增的 313 个代谢物 中,DeepMet 成功生成了 252 个,比例约为 81% 。
没有被生成的 61 个结构中,很多并不是典型的内源性人类代谢物,而是处方药及其代谢物、食物来源化合物、微生物来源或环境暴露相关分子。
更关键的是,这些后来才进入 HMDB 5.0 的代谢物并不是随机散落在 DeepMet 输出中,而是明显富集在高频生成区域。仅在 top 10,000 高频结构中,就包含了 105 个 HMDB 5.0 新增代谢物,相比随机期望约 1,500 倍富集。
这说明 DeepMet 不只是能生成代谢物样分子,还能对更可能被未来发现的结构进行排序。
DeepMet 的预测最终需要实验数据支持。
在 top 10,000 高频生成结构中,有 6,301 个结构不在任何版本的 HMDB 中。作者从这些结构中挑选候选分子,购买或合成化学标准品,并用 LC–MS/MS 获取参考谱图。
最终,作者用 80 个参考标准品谱图 去检索人类尿液和血液代谢组数据,并通过保留时间和 MS/MS 谱图匹配,在人体体液中鉴定出 17 个 DeepMet 预测的代谢物。
需要注意的是,其中一部分分子在后续文献核查中发现并非绝对未知,而是已经有文献报道、但缺失于 HMDB。这个结果本身也很有价值:DeepMet 不仅能提出新的候选结构,也能帮助暴露现有代谢物数据库中的遗漏和错误注释。
质谱中最基础的信息之一是准确质量。但准确质量本身通常不够,因为同一个质量范围内可能存在大量同量异位或同分异构候选。
作者模拟未知代谢物鉴定任务:从训练集中拿掉一部分已知代谢物,然后只给 DeepMet 这些 held-out 代谢物的准确质量,让模型在匹配质量的生成结构中排序。
结果显示,DeepMet 在 29% 的情况下能把正确结构排在第一位。相比之下,AddCarbon baseline 只有 2.1% ,直接搜索训练集为 0%
对于只输入准确质量的任务,这个结果已经相当强。更重要的是,即使 top-1 不是正确结构,DeepMet 给出的候选往往与真实代谢物具有较高结构相似性。
换句话说,DeepMet 的价值不只是猜中答案,而是把原本巨大的候选空间压缩到更值得实验验证的范围。

仅依据准确质量进行结构优先级排序。以 held-out 代谢物的准确质量为输入,DeepMet 在匹配质量的候选结构中按采样频率排序;在模拟任务中,top-1 准确率为 29%,高于 AddCarbon 的 2.1% 和训练集搜索的 0%。
准确质量无法区分大量异构体,因此实际代谢物鉴定通常还需要 MS/MS 谱图。
作者将 DeepMet 与 CFM-ID 结合,形成一个更完整的注释流程:
在模拟未知代谢物鉴定任务中,DeepMet + CFM-ID 在 Agilent MS/MS 数据集中表现明显优于单独使用 DeepMet 或单独使用 CFM-ID。对于 exact structure top-1 任务,正离子模式准确率为 52% ,负离子模式为 49% 。
这说明 DeepMet 的结构先验和 MS/MS 谱图证据是互补的。前者负责提出更像代谢物的候选结构,后者负责用碎裂信息进一步区分候选。

DeepMet 与 MS/MS 谱图预测的结合。作者先用 DeepMet 生成候选结构,再用 CFM-ID 预测候选结构的 MS/MS 谱图,并用 DeepMet 置信度和谱图相似度共同排序。在模拟未知代谢物任务中,正离子和负离子模式的 exact structure top-1 准确率分别为 52% 和 49%。
作者进一步把 DeepMet + MS/MS 搜索用于公开代谢组数据重分析。
他们整理了大规模人类血液代谢组数据,包括 4,510 次代谢组分析 和 2,910 万张 MS/MS 谱图。当只搜索 HMDB 结构库时,能够注释的谱图有限;加入 DeepMet 生成结构后,可匹配到候选结构的 MS/MS 谱图数量明显增加。
为了排除只是库变大导致随机匹配增加,作者构建了 shuffled decoy 谱库作为对照。结果显示,DeepMet 生成结构带来的匹配增加不能简单用随机匹配解释。
这部分结果说明,DeepMet 可以作为一种重新挖掘已发表代谢组数据的工具,尤其适合寻找那些过去因为数据库缺失而无法解释的未知峰。
不过,这类公开数据重分析仍然属于较低验证层级。没有原始样本和同一平台上的标准品复测时,注释结果更适合称为 tentative annotation,而不是最终确认。
高可信代谢物鉴定最终仍需要标准品验证。作者因此新采集了 23 种小鼠组织和体液 的 LC–MS/MS 数据。
经过 NetID 初步过滤,作者得到 4,814 个推定代谢物峰。其中只有 250 个 能通过内部标准品库鉴定,剩下 94.8% 仍然未知。
随后,作者把 DeepMet、CFM-ID、MS1 同位素模式和保留时间预测整合起来,训练了一个 meta-learning 模型,用来判断候选注释是否正确。这个整合模型将代谢物注释准确率提高到 70% 。
在进一步的标准品验证中,作者确认了 16 个此前未被识别的哺乳动物代谢物。这些代谢物类型较多,包括氨基酸缀合物、核苷或核苷酸衍生物、含磺酸基代谢物、碳水化合物衍生物以及非蛋白源二肽等。

小鼠组织中的代谢物发现与标准品验证。图中展示了 meta-learning 模型的注释效果,以及多个代表性代谢物的组织分布、保留时间和 MS/MS 标准品匹配,包括 3-(methylthio)acryloyl-glycine、4,5,6-triaminopyrimidine、N-carbamyl-taurine、3-hydroxypropane-1-sulfonic acid 和 S-sulfocysteinylglycine。
值得注意的是,这些此前未被识别的代谢物通常比已知代谢物更具组织特异性。作者认为,这可能部分解释了它们为什么长期没有被系统发现。
文章最后进一步分析了一部分代谢物的来源。作者结合了三类实验:
这些实验帮助作者判断部分代谢物来自宿主、饮食、肠道微生物,还是它们之间的交界。
例如,3-(methylthio)acryloyl-glycine 在抗生素处理后下降,并能掺入 13C-甲硫氨酸,提示其可能与肠道微生物和甲硫氨酸代谢相关。
N-carbamyl-taurine 同时受饮食和微生物影响,并能从 13C-葡萄糖中获得一个碳,说明其 carbamyl 基团可能与葡萄糖氧化后产生的碳酸氢盐有关。
4,5,6-triaminopyrimidine 在普通饲料中含量较高,在纯化饮食中几乎消失,不受抗生素显著影响,也没有观察到同位素示踪掺入,因此更像是饮食来源代谢物。
S-sulfocysteinylglycine 能掺入 13C-半胱氨酸和 13C-丝氨酸,不受饮食或微生物扰动影响,因此更可能是宿主内源性代谢物。

部分未识别代谢物的来源推断。作者结合饮食干预、抗生素处理和 13C 同位素示踪,将代表性代谢物分别归为宿主-微生物、饮食、饮食-微生物或宿主来源。
这篇文章的意义,不是说语言模型可以替代质谱,也不是说 DeepMet 可以绕过标准品验证。
更准确的定位是:DeepMet 为未知代谢物鉴定提供了一个可排序的候选结构空间。
传统数据库检索受限于已有结构库。如果真实结构不在数据库中,检索流程很难命中。而 DeepMet 的作用,是从已知代谢物结构中学习规律,提出一批数据库之外但具有代谢物样特征的结构,再交给准确质量、MS/MS、保留时间、同位素模式和标准品实验去筛选。
从方法论上看,这篇文章展示了一个很值得借鉴的范式:
生成模型不一定要直接给出最终答案,也可以负责构建更合理的候选空间。
在代谢组学中,这一点尤其重要。未知峰数量巨大,候选结构空间庞大,而标准品购买和合成成本很高。一个能够提高候选优先级的模型,即使不能完全自动化鉴定,也可能显著提高实验验证效率。
DeepMet 也有明确限制。
首先,它主要训练于人类已知非脂质代谢物,因此更擅长探索与已知哺乳动物代谢物相近的结构空间。对于植物、细菌、远缘物种代谢物,或大量合成化合物,直接套用这个模型未必合适。
其次,质谱本身对某些异构体的区分能力有限。即使有标准品,一些立体异构体和部分区域异构体仍可能存在歧义,需要额外分析手段确认。
第三,DeepMet 的实验发现流程仍然需要人工判断、标准品购买或合成,以及 LC–MS/MS 复测。模型可以提高排序效率,但不能替代化学验证。
第四,代谢组数据中存在大量加合物、同位素峰、源内碎片和其他伪峰。作者使用 NetID 等方法进行过滤,但在实际应用中,数据预处理质量仍然会直接影响后续注释结果。
因此,DeepMet 更适合被理解为 代谢物发现的辅助引擎,而不是自动化结构鉴定的终点。
这篇 Nature 工作把化学语言模型用于哺乳动物代谢组暗物质的探索。
DeepMet 从已知人类代谢物结构中学习代谢物样化学空间,通过大规模采样和频率统计,为数据库之外的候选结构赋予优先级。进一步结合准确质量、MS/MS 谱图、保留时间、同位素模式和标准品验证,作者在人体体液、小鼠组织以及公开代谢组数据中发现或重新识别了一批此前未被系统收录的代谢物。
这项工作的核心启发在于:AI 在科学发现中的作用,未必是一次性给出最终答案,而是把巨大且无序的搜索空间压缩成更值得实验验证的候选集合。
对于代谢组学而言,这可能是一种比单纯扩大数据库更主动的发现方式。
论文: Language model-guided anticipation and discovery of mammalian metabolites
期刊: Nature,2026
关键词: chemical language model、metabolomics、LC–MS/MS、metabolic dark matter、DeepMet