DRUGAI
今天为大家介绍的是来自深圳鹏城实验室任智祥团队的一篇论文。深度学习技术在分子研究领域取得了重大突破,让我们能够更快更好地理解分子结构并设计新型分子。其中,大语言模型的出现开创了一个新天地,它让我们可以用处理人类语言的方式来解决分子科学问题。这些模型在理解和创造分子方面表现出色,往往比传统方法更有效。不过,研究人员发现两个关键问题亟待解决:一是如何准确评估模型对不同类型数据的处理能力,二是如何找出模型在学习过程中的特点和偏好。为此,研究团队开发了一个名为ChEBI-20-MM的综合测试系统,并通过1263次实验来深入研究这些问题。研究不仅揭示了不同数据类型之间的转化规律,还创新性地提出了一种新方法,能够清晰地展示模型是如何在特定场景下学习和运用知识的。这项研究为我们理解大语言模型的工作机制提供了新的视角,也为推动其在分子科学领域的应用铺平了道路。
这项研究深入探讨了分子科学领域的重要进展。图1a展示了六个关键分子任务,分为三大类目标:首先是“描述类”任务,主要包括两个方面:一是用通俗易懂的语言描述复杂的分子结构,二是识别和理解专业的IUPAC分子命名。这就像是在为分子创建“身份证”,确保在不同场合都能准确识别它们;其次是“分析类”任务,主要研究分子的特性并预测它们在不同条件下的表现。这对于新药研发和材料设计至关重要;最后是“生成类”任务,包括创造新分子结构和将纸质文献中的分子信息数字化,这为科研工作提供了新的可能性。图1b展示了评估框架,其包括六个基本任务和相应的模态。
图 1
为了全面评估这些任务的完成效果,研究团队建立了一个名为ChEBI-20-MM的测试平台,收集了近33,000个分子样本。这些分子可以用多种方式表示:既可以用专业的分子描述符(如SMILES、InChI等计算机可识别的代码),也可以用二维图形来展示。研究团队通过1,263次实验,系统地评估了不同表示方法之间的转换效率,为提高分子研究的准确性和效率提供了重要参考。
实验结果
图 2
图2a展示了模态转换概率矩阵,反映了不同数据模态对各类任务的适用性。图2b和图2c分别展示了在9个文本转换任务和嵌入任务中,不同编码器和解码器的使用频率。研究发现,
在分子表示方法方面:
模型选择方面:
关于模型知识-学习偏好的案例研究
研究团队通过深入分析,揭示了AI模型是如何学习和理解化学知识的。图3展示了这一研究的核心发现:
图 3
图3a呈现了一个特殊的对应关系表(称为token映射矩阵),展示了模型如何将不同的化学表达方式联系起来。例如,当看到“oxy”(氧基)和“methyl”(甲基)这样的常见化学基团时,模型能够准确理解它们的含义。为了找出最重要的知识对应关系,研究团队设置了严格的筛选标准,最终在两种重要的转换过程中发现了关键联系:
图3b通过具体实例展示了这些对应关系如何工作。比如,当模型看到IUPAC名称中的“min”时,会自动联想到氨基(amino)结构;当看到SELFIES编码中的“[N]”符号时,能够识别出这代表氮原子。这些发现表明,AI模型不是简单地进行字符匹配,而是真正理解了分子结构的规律。
讨论
多模态的影响研究中,研究团队对于分子特性分类和分子描述任务使用了SMILES、SELFIES和图网络处理的图形表示。在嵌入层的四种融合技术中,只有加权加法混合能够始终超越基准模型。对比学习策略也很有效,它既适用于处理图形数据,也适用于处理文本数据。然而,交叉注意力策略在单模态设置中会降低性能,但在模态融合中能改善结果。特别是在生成分子描述文字的任务中,对比学习和交叉注意力都发挥了重要作用。
随后,研究团队讨论了模型的知识学习偏好和科学洞察力。研究选择了置信度超过99%的知识模式,通过降低阈值T可以发现更多新颖见解。研究表明,随着模型复杂度增加和训练数据的扩充,系统探索和阐明科学现象的能力也在提升。这不仅提高了模型预测的深度和准确性,还能探索分子行为的未知方面。
最后,研究团队从三个维度进行了分析:文本长度分布反映了分子描述的复杂程度,分子骨架的多样性展示了模型对不同化学结构的理解能力,分子特征统计则体现了化学空间的复杂性。该研究强调评估标准需要保持公正,避免偏向特定的分子表示方式,同时要确保模型能准确理解和处理各类分子信息。未来研究将着重于更好地融合不同类型的分子数据,并结合生物化学和药物学知识开发更专业的评估方法,这对于提升AI在化学研究中的应用具有重要意义。
编译|于洲
审稿|王梓旭
参考资料
Liu P, Tao J, Ren Z. A quantitative analysis of knowledge-learning preferences in large language models in molecular science[J]. Nature Machine Intelligence, 2025: 1-13.