第一时间掌握
新鲜的 AI for Science 资讯
编辑 | 白菜叶
自然界中充满了尚未被人类发现的化学物质。探索这些化学物质可以加速新药研发、更深入理解生物过程、开发更环保的农药等等。
每种物质具有一种独特的模式,类似于人类的指纹,可以被质谱(MS)方法所捕获。
虽然质谱方法可以生成大量数据,但解读这些数据并揭示精确的分子结构却极其困难。由此产生的质谱数据集,有时候看起来像是一堆毫无意义的庞大数字表格。
为了探寻未知分子的奥秘,捷克科学院(ASCR)和捷克技术大学(CTU)的研究团队开发了一个基于 Transformer 的神经网络 DreaMS,该网络以自监督的方式预训练了数百万张未注释的串联质谱(MS/MS)图,这些质谱图均来自 MassIVE GNPS 库中的 GNPS 实验质谱 (GeMS) 数据集。
通过进一步微调神经网络,该团队发布了在各项任务中均达到最佳性能的 DreaMS Atlas——一个基于 DreaMS 注释构建的包含 2.01 亿张 MS/MS 光谱的分子网络。
就像 ChatGPT 等大型语言模型能够在不预先知道单词含义的情况下学习理解语言一样,DreaMS 也可以尝试在不预先了解其化学结构的情况下解读质谱图。
该研究以「Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS」为题,于 2025 年 5 月 23 日发布在《Nature Biotechnology》。
DreaMS 无需依赖现有方法或人类领域专业知识,即可适用于各种光谱注释任务,并可作为 MS/MS 的基础模型。
「ChatGPT 可以从大量文本中推断单词的含义及其之间的联系,而 DreaMS 神经网络则利用自监督机器学习,学习识别光谱中隐藏的分子结构。它利用了数百万个示例的数据。」论文的通讯作者之一,来自 CTU 的 Josef Šivic 博士解释道。
图示:DreaMS 神经网络克服了质谱数据库的局限性。(来源:论文)
为了搭建 DreaMS,研究人员首先构建了一个高质量的数据集——GNPS 实验质谱 (GeMS),其中包含从全球天然产物社会分子网络 (GNPS) 库中挖掘出的多达 7 亿条 MS/MS 光谱。
之后,该团队设计了一个 Transformer 神经网络,并使用 GeMS 数据对其进行了预训练,以预测掩蔽谱峰和色谱保留顺序。结果表明,通过在未注释的质谱上针对这些自监督目标进行优化,该模型能够发现丰富的分子结构表征。
具体来说,DreaMS 表示(1,024 维实值向量)是根据分子之间的结构相似性组织的,并且对质谱条件表现出稳健性。
「DreaMS 模型基于来自不同生物体和环境(植物、微生物、食物、组织和土壤样本)的数千万张光谱进行训练。得益于此,它可以发现乍看起来毫无关联的光谱之间隐藏的相似之处。」论文的通讯作者之一、Neuron 奖获得者 、捷克科学院的 Tomáš Pluskal 解释道。
针对各种质谱注释任务,研究人员对 DreaMS 进行了微调,包括预测光谱相似性、分子指纹、化学性质和氟的存在,其性能超越了传统算法和质谱领域的机器学习模型。
「我们特别惊讶的是,该模型学会了检测氟。」Pluskal 说,「氟存在于大约三分之一的药物和农用化学品中,但我们之前无法从质谱中可靠地检测到它。在对数百万张光谱进行预训练后,我们用几千个含氟分子样本对其进行了微调——突然间,它就成功了。」
然后,研究人员用微调模型构建了 DreaMS Atlas——一个使用 DreaMS 注释组装的 2.01 亿个 MS/MS 光谱的分子网络。
图示:DreaMS Atlas 是一个包含 2.01 亿个 MS/MS 光谱的分子网络,它为整个 MassIVE GNPS 存储库提供了全面的系统化。(来源:论文)
DreaMS Atlas 是一个综合资源,利用 DreaMS 预测和 MassIVE GNPS 元数据来解释质谱图。将 DreaMS Atlas 视为化学上可信的分子结构空间的近似值,为计算化学面临的各种挑战提供了新的视角。
例如,可以通过在 DreaMS Atlas 中的已知药物之间进行插值来解决基于片段的药物设计问题,并且可以通过识别 DreaMS Atlas 图形结构中稀疏连接的区域来促进具有潜在原始作用模式的结构独特化合物的检测。
换句话说,在 DreaMS Atlas 上,用户可以搜索、探索已发现的联系并提出新的问题——例如:杀虫剂、食物和人体皮肤有什么共同点?
目前,该团队正进行下一步的研究:如何预测整个分子结构。如果成功,它将从根本上改变我们对化学多样性的理解——无论是在地球上还是宇宙中的任何地方。
论文链接:https://www.nature.com/articles/s41587-025-02663-3
相关内容:https://phys.org/news/2025-05-unknown-molecules-ai.html
人工智能×[ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
领取专属 10元无门槛券
私享最新 技术干货